Group 21 Copy 4 Created with Sketch.

“Big data da literatura”: romances seguem não mais do que 8 padrões

Estudo do pesquisador Matthew Jockers analisa a distribuição dos "bons" e "maus" momentos de 40.000 obras como "Dom Quixote" e "Moby Dick"

Quando era adolescente, nos anos 80, o americano Matthew Jockers gastava a maior parte do tempo em seu quarto, calado, com os olhos fixos na tela do computador. Autodidata, testava códigos de programação e, caso obtivesse sucesso, exibia orgulhoso as conquistas virtuais para amigos e familiares. Seus pais não tinham dúvida de que se tratava de vocação: o filho, fã de números e de lógica, se tornaria programador. A previsão, mais tarde ele diria, estava 50% certa. No ensino médio, Jockers quis ir além. Ávido por conhecimento fora do universo matemático, procurou um professor de literatura no corredor da escola para pedir dicas de leitura. O tutor, com pressa, indicou apenas um: Crime e Castigo, do russo Fiodor Dostoiévski. O impacto foi imediato. Encantado, Jockers passou a devorar clássicos com a mesma voracidade com que se atirava aos computadores. Aos 15 anos, era um nerd literário.

Hoje com 48 anos, Jockers é um programador de ofício e phD em literatura inglesa pela Universidade do Sul de Illinois. Com um pé nas ciências exatas e outro nas humanas, ocupa o cargo de professor associado de inglês da Universidade de Nebrasca e dirige o Laboratório Literário da instituição, que se dedica a explorar livros usando ferramentas digitais. O método é chamado macroanálise. É uma espécie de aplicação à literatura das técnicas de big data – análise que se difunde pelo mundo apoiada no processamento de gigantescas quantidades de dados por meio de computador com o propósito de encontrar relações entre variáveis e tendências.

No caso do professor americano, os dados são conteúdos de milhares de obras literárias. O programa desenvolvido por Jockers faz uma varredura nos livros contabilizando palavras, frases, parágrafos e nomes, entre outros elementos. O conteúdo digitalizado vira, então, estatística. “Essa análise ajuda a extrair sentido de milhares de livros ao mesmo tempo, algo impossível de fazer a partir da leitura convencional dos livros”, diz Jockers à VEJA.com. Segundo esse raciocínio, a frequência de uso de uma palavra ou ainda de uma construção linguística pode revelar um padrão ou uma tendência.

Leia também

Sistemas biométricos não são tão seguros como imaginamos

‘Menos planilhas e mais instinto’, diz guru das startups

A pesquisa já dura vinte anos. Nos últimos meses, Jockers se empenha na missão de descobrir padrões das narrativas literárias a partir da chamada “análise de sentimento” das palavras. Ele alimentou o sistema com 6 bilhões de palavras, provenientes de cerca de 40.000 livros. Em seguida, marcou os termos normalmente associados a sentimentos “bons” ou “ruins”. O passo seguinte foi identificar as passagens das obras em que predominam momentos “positivos” (menos conflitos) ou “negativos” (mais conflitos), respectivamente.

Colocada na linha do tempo de cada obra, essa variação de sentimentos revelou que a narrativa dos 40.000 livros segue um número relativamente pequeno de padrões: entre seis e oito (o estudo ainda está em curso). Os padrões, por sua vez, se apoiam em apenas dois modelos (veja os gráficos abaixo) – que ele chama “homem da montanha” e “homem no buraco”, uma referência à sorte dos protagonistas. O primeiro descreve uma história de queda e reerguimento. Nesse tipo de trama, há uma grande variação de sentimentos ao longo da obra, com uma queda acentuada, em direção ao revés, próximo do meio do romance. Cerca de 45% dos romances analisados se encaixavam nesse modelo. No segundo, que usa a metáfora da montanha como síntese de ascensão, há uma variação emocional menor, com conflitos mais amenos. O salto emocional positivo – uma redenção, uma vitória, um amor conquistado – aparece em geral no meio da trama. Segundo Jockers, é a fórmula mais comum dos romances, presente em 54% das obras.

O estudo é inspirado em um discurso célebre do escritor americano Kurt Vonnegut (1922-2002), que propôs que os altos e baixos dos protagonistas da ficção fossem representados em gráficos para revelar as estruturas narrativas das obras. Vonnegut previu que, ao levar em conta a variação de sentimentos do personagem principal, as centenas de milhares de romances já escritos obedeceriam a poucos padrões. Jockers comprovou as suspeitas do escritor. “Os resultados mostram como funciona a escrita criativa e quais são as similaridades entre as grandes obras clássicas, por exemplo”, diz Jockers. Na nova etapa da pesquisa, ele pretende analisar apenas a variação emocional em best-sellers. “Estou investigando se os autores dos livros mais vendidos são previsíveis ou, pelo menos, se há algumas características específicas que podemos encontrar nessas obras.”

Jockers pode ser considerado o pioneiro da análise literária digital. Começou durante o curso de literatura inglesa na Universidade Estadual de Montana, quando usou a computação para obter os números de sílabas do célebre poema épico de autor desconhecido Beowulf. A partir dos anos 2000, aproveitando-se do avanço computacional, passou a se dedicar a pesquisas mais ambiciosas. Na mais longa e completa delas, vasculhou 3.592 obras para examinar as características dos autores do século XIX e a influência sobre escritores que os sucederam.

Para levar o trabalho a cabo, cruzou dados relativos a romances assinados por autores consagrados como Jane Austen, Charles Dickens, Herman Melville e Mark Twain, entre outros. Conclui que a autora de Orgulho e Preconceito foi a mais influente do período. De acordo com a análise, que levou em conta os temas abordados, a estrutura das obras, o vocabulário e forma narrativa, Jane Austin foi imitada à exaustão – mais do que os demais. “Eu não gostava muito das obras dela, mas passei a respeitá-la profundamente ao ver os resultados da análise. Ela estava anos à frente do seu tempo.”

Alguns críticos dizem que a ferramenta de Jockers faz exames simplórios das obras literárias. Sua análise estatística reduziria a dois uma gama de sentimentos difíceis de classificar. Outra queixa é a de que os computadores não seriam capazes de captar ironia ou humor negro. Jockers rebate: “A perda de informação na análise literária é aceitável em minha pesquisa. A ironia e o humor negro não estão presentes em todas as obras e, quando estão, representam parte pequena das mesmas. Não procuro criar verdades absolutas, mas, sim, iluminar os estudos literários”.

As narrativas dos romances seguem as duas tendências gráficas acima: um U (homem no buraco) ou um U ao contrário (homem na montanha). A análise leva em conta os sentimentos das palavras. As narrativas dos romances seguem as duas tendências gráficas acima: um U (homem no buraco) ou um U ao contrário (homem na montanha). A análise leva em conta os sentimentos das palavras.

As narrativas dos romances seguem as duas tendências gráficas acima: um U (homem no buraco) ou um U ao contrário (homem na montanha). A análise leva em conta os sentimentos das palavras. (/)