Clique e Assine a partir de R$ 7,90/mês

Computador consegue escrever notícias sozinho

Projeto sobre inteligência artificial permite que máquina aprenda a imitar o raciocínio humano

Por The New York Times 29 set 2011, 10h09

“Wisconsin parece estar com o jogo ganho, já que lidera por 51 X 10 após o terceiro tempo. Wisconsin aumentou sua liderança quando Russell Wilson encontrou Jacob Pedersen para um touchdown de 8 jardas para deixar o placar a 44-3…”

Essas palavras iniciaram um resumo de notícias escrito dentro de 60 segundos do fim do terceiro tempo de um jogo de futebol americano entre as universidades de Wisconsin e Nevada, em setembro. Podem não parecer muita coisa, mas foram escritas por um computador.

O código inteligente é obra da Narrative Science, uma startup de Evanston, Illinois, que oferece a prova do progresso da inteligência artificial: a capacidade dos computadores imitarem o raciocínio humano.

O software da empresa toma dados, como os de estatísticas esportivas, relatórios financeiros de empresas e lances e vendas de moradias e os transforma em notícias. Durante anos, os programadores têm realizado experiências com o software que escreveu tais textos, tipicamente para eventos esportivos, mas esses esforços tinham um estilo cerimonioso, como se houvesse lacunas a serem preenchidas em um texto básico. Eram lidos como se uma máquina os tivesse escrito.

Mas a Narrative Science se baseia em mais de uma década de pesquisa, liderada por dois fundadores da empresa, Kris Hammond e Larry Birnbaum, diretores do Laboratório de Informação Inteligente da Universidade Northwestern. E os textos produzidos pela Narrative Science são diferentes.

“Pensei que fosse mágica”, diz Roger Lee, sócio geral da Battery Ventures, que liderou um investimento de US$ 6 milhões na empresa mais cedo neste ano.

“É como se um humano o tivesse escrito”.

Os especialistas em inteligência e linguagem artificial também estão impressionados, embora menos encantados. Oren Etzioni, cientista da computação na Universidade de Washington, diz: “A qualidade da narrativa produzida era bastante boa, como se fosse escrita por um humano, se não um autor com talento”.

Segundo Etzoni, a Narrative Science aponta para uma tendência maior na computação: “a crescente sofisticação no entendimento automático da linguagem e, agora, na geração de linguagem”.

O trabalho inovador na Narrative Science levanta a questão mais ampla sobre se tais aplicações da inteligência artificial serão uma assistência a trabalhadores humanos ou sua substituição. A tecnologia já está minando as fundações econômicas do jornalismo tradicional. A publicidade online, ainda que em ascensão, não compensou o declínio na publicidade impressa. Mas será que os robôs jornalistas substituirão os jornalistas de carne e osso nas redações?

Os líderes da Narrative Science enfatizaram que sua tecnologia seria primordialmente uma ferramenta de baixo custo para as publicações se expandirem e enriquecerem a cobertura quando os orçamentos editoriais estiverem sob pressão. A empresa, fundada no ano passado, tem 20 clientes até agora. Vários ainda estão realizando experimentos com a tecnologia, e Stuart Frankel, o CEO da Narrative Science, não gostaria de revelar seus nomes. Eles incluem redes de jornais buscando oferecer textos que resumem automatizadamente para uma cobertura mais extensa de modalidades esportivas juvenis locais e geração de artigos sobre os resultados financeiros trimestrais de empresas públicas locais.

“Em linhas gerais, estamos fazendo coisas que não estão sendo feitas de outro modo”, diz Frankel.

Os clientes da Narrative Science que estão dispostos a conversar, realmente cabem nesse modelo. A Big Ten Network, um joint venture da Big Ten Conference e da Fox Networks, começou a usar a tecnologia na primavera de 2010 para curtas recapitulações de jogos de beisebol e softball. Eles eram postados no site da rede dentro de um minuto ou dois do fim de cada jogo; tabelas e dados de jogada a jogada eram usados para gerar os artigos breves. (Anteriormente, a rede dependia de resumos online fornecidos por serviços especializados em esportes universitários).

Continua após a publicidade

“Enquanto a temporada esportiva da primavera prosseguia, os textos gerados por computador melhoravam, ajudados por sugestões de editores na equipe da rede”, diz Michael Calderon, vice-presidente para mídia digital e interativa na Big Ten Network.

O software da Narrative Science pode fazer inferências baseadas nos dados históricos que ele coleta e na sequência e resultados de jogos passados.

“Para gerar ângulos nas histórias”, explica Hammond, da Narrative Science, “o software aprende conceitos para as matérias como esforço individual, esforço de equipe, vindo de trás, para lá e para cá, recorde da temporada, característica do jogador e rankings para a equipe. Então o software decide qual elemento é mais importante para aquele jogo e ele se torna a chamada do artigo”, disse ele. Os dados também determinam a seleção do vocabulário. Um placar desequilibrado pode perfeitamente ser chamado de ‘lavada’ em vez de ‘vitória’.

“Composição é o conceito-chave”, diz Hammond. “Não é só pegar os dados e derramá-los no texto”.

No trimestre passado, a Big Ten Network começou a usar a Narrative Science para atualizações de jogos de futebol americano e basquete. Segundo Calderon, essas notícias ajudaram a impulsionar uma explosão em indicações para o site a partir do algoritmo de busca do Google, que dá classificações altas a conteúdo novo sobre assuntos populares. O tráfego de rede na Web para jogos de futebol americano na temporada passada era 40 por cento mais alto do que em 2009.

Hanley Wood, editora comercial para a indústria de construção, começou a usar o programa em agosto para fornecer notícias mensais sobre mais de 350 mercados imobiliários locais, postados em seu site, builderonline.com. A empresa havia coletado os dados durante muito tempo, mas contratar pessoas para escrever artigos sobre tendências teria sido muito dispendioso, conforme conta Andrew Reid, presidente da unidade de mídia digital e inteligência de mercado da Hanley Wood.

Reid diz que a Hanley Wood trabalhou com a Narrative Science durante meses para ajustar o software para o mercado de construção. Ex-executivo da Thomson Reuters, ele diz que ficou impressionado com a alta qualidade dos artigos. “Eles superaram um grande obstáculo linguístico”, observa. “As histórias não são duplicatas de jeito nenhum”.

Ele também ficou impressionado com o custo. A Hanley Wood paga à Narrative Science menos de US$ 10 por cada texto de cerca de 500 palavras, e o preço muito provavelmente cairá com o tempo. Mesmo a US$ 10, o custo é bem menos, pelas estimativas da indústria, do que o custo médio por matéria de empresas de notícias online locais como a Patch, da AOL, ou sites de respostas, como aqueles administrados pela Demand Media.

As ambições da Narrative Science incluem subir mais alto na escada da qualidade. Tanto Birnbaum quanto Hammond são professores de jornalismo, bem como de ciência da computação. A própria empresa é resultado da colaboração entre as duas escolas.

“Esse tipo de tecnologia pode aprofundar o jornalismo”, diz John Lavine, decano da escola de jornalismo Medill, da Northwestern.

Hammond diz que a combinação de avanços em seu gerador de textos e na prospecção de dados pode abrir novos horizontes para o jornalismo computacional, explorando correlações que não se esperava, conceitualmente semelhante ao Freakonomics de dois humanos, o economista Steven D. Levitt e o autor Stephen J. Dubner.

Hammond citou a previsão de um especialista em mídia segundo a qual um programa de computador poderia ganhar um prêmio Pulitzer de jornalismo em 20 anos e ele pediu desculpa, mas não concorda. “Em cinco anos, um programa de computador ganhará um Pulitzer e macacos me mordam se não for a nossa tecnologia”. diz.

Caso isso aconteça, o prêmio certamente não seria concedido ao código de resumo, mas a seus criadores humanos.

Continua após a publicidade

Publicidade