Inteligências artificiais ‘alucinam’ pelo menos 3% das vezes, diz estudo
Especialistas sugerem que ferramenta não seja utilizada como um repositório de conhecimento
Desde que as inteligências artificiais generativas começaram a ganhar popularidade, há cerca de um ano, os usuários têm explorado à exaustão suas diversas habilidades. O uso como uma ferramenta auxiliar das atividades cotidianas tem se mostrado positivo, mas usuários que utilizam a ferramenta como um repositório de conhecimento, com frequência, relatam respostas incorretas. De acordo com um levantamento divulgado agora, essas alucinações, como são chamadas, ocorrem em pelo menos 3% das vezes.
Para fazer essa investigação, especialistas da Vectara, uma startup criada por ex-funcionários do Google, pediram uma tarefa simples para os modelos de linguagem mais populares: resumir documentos de texto. O Chat-GPT, da OpenAI, foi o que apresentou menos alucinações, com respostas incorretas entre 3% e 3,5% das vezes. O Lhama, da Meta, apresentou erros entre 5% e 6% das respostas; o Cohere, entre 7,5% e 8,5%; o Claude 2, da Anthropic, em 8,5%; o Mistral 7B, em 9,4% e o Palm, do Goolgle, entre 12,1% e 27,2%.
De acordo com os autores, essa taxa foi registrada com base em uma tarefa específica, mas em outras, como pedir uma resposta sem especificar uma fonte, isso pode varias e as alucinações podem ser ainda mais comuns. Na ferramenta do Google, os erros são mais frequentes, porque, na maioria das vezes, as respostas são mais longas e contextualizadas.
Os casos preocupam, pois com frequência geram implicações reais. O mais emblemático deles veio de um tribunal. Em março, um advogado pediu que o ChatGPT fizesse uma pesquisa de casos semelhantes ao que ele defendia para utilizar na argumentação. O problema foi que o modelo gerou casos falsos que foram utilizados em documentos oficiais, o que pode levá-lo a sofrer sanções legais no futuro próximo.
Isso acontece, porque diferente do que muitas pessoas imaginam, o programa não é capaz de raciocinar ou fazer buscas concretas. O que ele faz, em função de uma base de treinamento, é prever a ordem mais lógica de palavras de acordo com a pergunta do usuário. O mesmo ocorre com geradores de imagens, áudios ou vídeos – que também tem alucinações, nas formas de dedos estranhos ou membros faltantes, por exemplo.
As empresas tentam, continuamente, reduzir essas falhas, mas há quem se questione se não são intrínsecas a essa tecnologia. O que especialistas sugerem é que, para não deixá-las ter um impacto negativo, essas ferramentas sejam utilizadas de maneira crítica e apenas como um “co-piloto”, sem que funções intrinsecamente humanas sejam atribuídas a ela.
Isso também gera discussões a respeito do futuro das inteligências artificiais. Inegavelmente elas chegaram para ficar, mas que espaço terão nas rotinas, é uma questão que ainda precisará ser discutida em sociedade.