Tecnologia

Cientistas alertam para possível colapso das inteligências artificiais

Ferramentas generativas podem parar de funcionar se treinadas com conteúdo artificial

Por Luiz Paulo Souza SEGUIR SEGUINDO Atualizado em 25 jul 2024, 09h38 - Publicado em 24 jul 2024, 16h06

COLAPSO - Autotreinamento: treinar IAs com conteúdo artificial leva ao mau funcionamento da ferramenta (Google DeepMind/Unsplash/Divulgação)

Inteligências artificiais generativas (IAs) são conhecidas por necessitar de uma grande quantidade de conteúdo gerado por humanos para funcionar de maneira satisfatória. Quanto mais dados diversos e de qualidade, melhores são os textos, imagens, áudios e vídeos produzidos por esses robôs. No entanto, à medida que mais conteúdo artificial, gerado pelas IAs, começam a se espalhar pela internet, maior o risco dessas ferramentas entrarem em colapso.

Por que as IAs podem colapsar?

O alerta veio de um artigo científico publicado nesta quarta-feira, 24, na Nature. Isso acontece porque a internet é uma das maiores fontes de dados para treinar essas ferramentas e, à medida que o conteúdo online fica “contaminado” por textos e mídias artificiais, criados pelas próprias IAs, elas deixam de funcionar de maneira adequada.

E isso pode acontecer muito rapidamente. De acordo com os pesquisadores responsáveis pela investigação, feita na Universidade de Oxford, um dos testes feitos por eles precisou de apenas nove ciclos de treinamento baseado em conteúdo artificial para o modelo começar a gerar respostas sem sentido – em uma conversa que deveria ser sobre arquitetura medieval, logo o sistema começou a falar sobre espécies inexistentes de coelhos.

Isso acontece em diversas etapas diferentes. “Na fase inicial do colapso, os primeiros modelos perdem a variância e desempenho em dados minoritários”, disse Ilia Shumailov, autor principal do artigo, em entrevista ao Gizmodo. “Na fase final, o modelo entra em colapso total.”

Como reverter isso?

A pane ocorre porque os modelos são naturalmente enviesados. Suponhamos que para gerar imagens de gatos, o modelo tenha sido treinado com mais gatos laranjas do que com gatos brancos. Como resultado, também terão mais imagens artificiais do animal colorido do que do animal pálido. À medida que imagens artificiais são incorporadas, maior ainda é o enviesamento, até que, em algum momento, o modelo simplesmente ignore a existência dos gatos brancos.

A mesma lógica funciona para qualquer assunto e, por isso, é necessário que as empresas passem a pensar em maneiras de evitar que isso aconteça. Uma delas é fazer uma boa curadoria do conteúdo utilizado, se aproveitando apenas de fontes comprovadamente humanas. A outras, é criar marcadores, ou “marcas d’água”, que permitam a identificação do conteúdo artificial, seja em texto, seja em conteúdo de áudio ou vídeo, para que os sistemas reconheçam e ignorem os dados não gerados por humanos.