O que a inteligência artificial ainda não aprendeu com os intérpretes humanos
Ferramentas de tradução por IA avançam em velocidade e fluência, mas ainda não conseguem lidar com ambiguidade, contexto e nuances culturais

Em um mundo cada vez mais automatizado, a promessa de entender qualquer idioma com um simples toque na tela parece mais próxima do que nunca. Ferramentas de tradução simultânea alimentadas por inteligência artificial — como as lançadas recentemente por Google e Apple — já são capazes de converter falas em tempo real com fluência, entonação e até simulações de emoção. Vídeos dublados por IA se multiplicam nas redes, reuniões internacionais acontecem sem a presença de tradutores humanos e o próprio aprendizado de línguas começa a parecer, para muitos, um esforço desnecessário. Se a máquina já faz tudo por nós, por que seguir decorando verbos irregulares?
A resposta, no entanto, não é tão simples. Porque na prática, os algoritmos ainda tropeçam — e muito. Quando expostos a ruídos, ambiguidades, sobreposição de falas ou referências culturais sutis, os sistemas automáticos revelam suas limitações. Frases desconexas, traduções truncadas e mal-entendidos não são raros. É justamente nesses contextos que se evidencia o que muitos tentam ignorar: traduzir vai muito além de converter palavras. É um processo humano, social e cognitivo, que exige escuta ativa, atenção ao contexto, sensibilidade e empatia.
Para Marsel de Souza, intérprete profissional há mais de vinte anos e presidente da Associação Profissional de Intérpretes de Conferência (APIC), a inteligência artificial pode até ajudar — mas está longe de substituir.
Por que os julgamentos de Nuremberg são considerados o marco da tradução simultânea moderna?
Porque foi a primeira vez que se usou a modalidade simultânea em um evento de escala internacional. Até então, só se usava a interpretação consecutiva, aquela em que o orador fala e depois faz uma pausa para o intérprete traduzir. Em Nuremberg, eram quatro idiomas — alemão, inglês, francês e russo — e seria impossível conduzir os julgamentos com pausas sucessivas em cada fala. Por isso, foi ali que a tradução simultânea se consolidou como ferramenta essencial para a comunicação multilíngue em ambientes de alta complexidade. A figura do intérprete já existia há milênios, claro, mas foi nesse episódio, em 1945, que nasceu de fato a profissão como conhecemos hoje. E agora, em 2025, completamos oitenta anos daquele marco histórico.
Apesar dessa importância, o senhor acha que o trabalho dos intérpretes ainda é subestimado?
Sim, infelizmente há uma visão muito simplista do que fazemos. Muita gente acha que basta saber outro idioma para interpretar ou traduzir. Mas a interpretação exige uma formação específica, domínio técnico, leitura constante, estudo de vocabulário especializado. Além disso, é uma atividade cognitiva extremamente intensa. Costumo dizer que não somos apenas tradutores de palavras, mas de sentidos, contextos, emoções. A nossa atuação exige preparo e, principalmente, sensibilidade. Não é à toa que somos comparados, em termos de esforço mental, a controladores de voo.
Como o senhor vê o movimento das big techs, como Google e Apple, em direção à automação da tradução simultânea?
Essas ferramentas surgem com uma proposta voltada a contextos simples — como o atendimento ao turista ou a comunicação informal entre duas pessoas. E, nesses casos, até funcionam razoavelmente bem. O problema é quando essas tecnologias são apresentadas como capazes de substituir o intérprete humano em reuniões técnicas, institucionais ou de negócios. Aí reside um perigo. É importante lembrar que, para a máquina funcionar com mínima eficiência, o orador precisa ter um ritmo perfeito, falar pausadamente e articular bem as palavras. Mas na prática, em eventos reais, há sobreposição de falas, ruído, sotaques diversos, emoções. Tudo isso confunde os sistemas automatizados. Na APIC, vemos com preocupação essa publicidade sensacionalista que vende a IA como substituta plena, quando na verdade ela ainda engatinha fora de contextos simples.
O senhor já testou essas ferramentas? Em que medida elas funcionam — e em que medida falham?
Já testei e observei demonstrações, como na AI in Interpreting Summit. O que percebi é que a qualidade da tradução depende muito da clareza da fala original. Quando há hesitações, mudanças de assunto, entonações ambíguas ou ironias, o sistema se perde. Outro ponto: a voz gerada ainda é robótica e monótona. Pode ser divertida por alguns minutos, mas é cansativa em contextos prolongados, como seminários. E, claro, há as falhas de sentido — como traduções literais ou fora de contexto. Em ambientes reais, as falas são cheias de hesitações, ruídos e sotaques. As máquinas não conseguem lidar com essa variabilidade — ainda são extremamente frágeis nesse sentido. Não dá para confiar cegamente em uma máquina quando há riscos envolvidos na comunicação.
Quais são, na sua opinião, os maiores limites dessas tecnologias?
O principal é que elas não sabem lidar com ambiguidade. Quando há dúvida sobre o que foi dito, o intérprete humano busca pistas no contexto, no tom, no olhar, na cultura do outro. A máquina, não. Ela calcula probabilidades. Além disso, esses sistemas são alimentados por textos digitais e não absorvem nuances extralinguísticas. Para superar isso, seria necessário desenvolver uma máquina com percepção cognitiva e sensorial semelhante à humana — e isso ainda está muito distante. Desde a década de 1950 se tenta automatizar a tradução, mas seguimos dependentes de decisões humanas nas situações mais complexas.
Alguns dizem que, no futuro, ninguém mais vai precisar aprender outros idiomas. O senhor concorda?
Não. Aprender uma língua não é só decorar vocabulário. É mergulhar em outra lógica, outra forma de ver o mundo. Mesmo que a tradução automática avance, ainda precisaremos de pessoas capazes de compreender os dois lados de uma conversa com profundidade. A comparação que gosto de fazer é com o GPS: ele te ajuda a dirigir, mas se o sistema falha, você precisa saber se virar. O mesmo vale para a comunicação. E, mais que isso, aprender línguas desenvolve atenção, memória, flexibilidade cognitiva. É um exercício para o cérebro — e também para a alma.
O que perderíamos, como sociedade, se toda comunicação fosse mediada por máquinas?
Perderíamos o essencial. Comunicação é um ato social e cultural. Quando uma máquina se torna a mediadora de todas as nossas interações, não é só a linguagem que se empobrece — é a nossa relação com o outro. Língua, cultura e comunicação são inseparáveis. Cada palavra carrega um mundo. E nenhum algoritmo é capaz de captar isso com a mesma complexidade e sensibilidade que um ser humano.