Aplicando técnicas de Processamento de Linguagem Natural (PLN) no texto de F. Scott Fitzgerald.
A obra-prima de Scott Fitzgerald
Considerado um clássico da Literatura Mundial, "O grande Gatsby" (The great Gatsby) foi o terceiro romance do escritor americano Francis Scott Fitzgerald (1896-1940) e a sua obra-prima. Ele foi publicado em 10 de abril de 1925 pela editora Charles Scribner´s Sons, seguindo "Este lado do paraíso" (1920) e "Os belos e os malditos" (1922). Entre um título e outro, Fitzgerald também escreveu as estórias de "Contos da Era do Jazz" (1922), textos esses que acabaram marcando toda uma geração de leitores e fazendo com que o autor ficasse associado a esse período como o escritor da Era do Jazz.
Sobre "O grande Gatsby", a sua estória foi ambientada no verão de 1922, depois da Primeira Guerra Mundial (1914-1918) e no início da entrada em vigor da Lei Seca (1920-1933). Ela é narrada pelo personagem de Nick Carraway, um recém-chegado à baía de West Egg, vizinho do bilionário Jay Gatsby e primo da paixão desse homem, Daisy Buchanan, moradora de East Egg. Na trama, as fictícias West Egg e East Egg ficam em Long Island, um dos cinco bairros de Nova York.
Nick logo descobre que Jay Gatsby é uma figura enigmática. Ninguém sabe quem ele é ao certo e nem como fez fortuna, mas todos adoram as festas espetaculares que ele promove, regadas a muita champagne e muita música. Depois de ser convidado para uma delas, Nick e Gatsby tornam-se amigos. É quando o narrador descobre que o vizinho conheceu Daisy alguns anos antes, mas que era pobre demais para poder namorar com ela. Quando voltou à cena, rico e poderoso, ele soube que a amada já estava casada e que morava em East Egg, com o marido e a filha do casal. Ainda apaixonado, Gatsby decidiu morar "de frente" para a mansão de Daisy e a promover festas na esperança de que ela aparecesse numa delas.
Se você já leu "O grande Gatsby" ou se viu algum dos filmes inspirados nele, sabe como essa estória se desenvolve e como termina. Se não, deixo aqui o convite para que o leia. Esse é um dos romances mais celebrados de todos os tempos e tem os seus méritos para isso.
Para fins do experimento desse post, é importante saber que essa estória foi classificada como um romance trágico. Vamos conferir se a mineração de textos capta isso.
A mineração de "O grande Gatsby"
Entre as características marcantes de Fitzgerald como escritor estão (a) a escrita sofisticada, (b) a construção de narrativas muito bem desenvolvidas e (c) a tendência para finais inconvencionais. Conhecendo a obra dele, eu iniciei esse experimento querendo descobrir se modelos matemáticos fariam juz aos sentimentos que leitores, como eu, experimentaram quando leram cada capítulo de "O grande Gatsby". O meu objetivo inicial foi responder as seguintes perguntas:
Quais palavras foram mais usadas por Fitzgerald em seu romance?
Será que modelos de mineração de textos para análise de sentimentos conseguirão captar o mix de emoções complexas presentes em cada uma dessas palavras?
E se fizerem isso, será que um escore atribuindo pesos a esses sentimentos revelarão um arco narrativo condizente com o que foi "percebido" pelo leitor ao longo do livro?
Por fim, quais palavras aparecem juntas mais vezes e que insights elas oferecem sobre a trama?
Bibliotecas e base de dados:
As técnicas de mineração de texto aplicadas nesse projeto foram (1) wordcloud ou nuvem de palavras, (2) classificação de sentimentos usando o Opinion Lexicon do pacote NLTK (Natural Language Toolkit), (3) escoragem de sentimento com AFINN e (4) pares de palavras com Networkx, todas programadas em linguagem Python. Quanto ao texto, ele foi coletado no site Project Gutenberg, onde encontra-se disponível no idioma inglês.
Respostas & Insights:
1 - Palavras mais usadas por Fitzgerald em "The Great Gatsby":
A criação de uma wordcloud mostrou que esse romance possui cerca de 50.000 palavras, sendo 52,8% de stopwords (ou seja, palavras sem relevância para a análise textual) e 47,2% de palavras informativas. Dessas últimas, as que mais aparecem no texto são o nome de Gatsby, os verbos said (disse) e came (veio), seguidas dos nomes dos personagens Daisy e Tom, além de substantivos como house (casa) e adjetivos como little (pouco).
2 - Análise de sentimentos negativos e positivos:
A análise de sentimentos mostrou que o texto possui 55% de palavras negativas e 45% de positivas, o que faz sentido diante do contexto dessa trama.
3 - Descobrindo o peso das palavras negativas e positivas com Escore de Sentimentos:
O escore de sentimentos revelou o peso dos sentimentos das palavras numa escala de -5 (muito negativa) até 5 (muito positiva). Do total, 29,4% receberam escore -2 e 10% de escore -3 contra 24,1% de escore 2 e 16,5% de escore 3. O escritor não usou palavras com o nível de sentimento positivo máximo (escore 5).
O escore de sentimentos também foi usado para dar peso ao arco narrativo da estória. No gráfico abaixo, a linha azul representa a média móvel do escore e indica que, apesar dos sentimentos altos e baixos ao longo do texto (linha cinza), a maior parte dele (seções 4 até 21 e 24, aproximadamente) manteve o sentimento positivo (acima de 0.0). Isso pode ser atribuído, por exemplo, aos textos sobre as festas e passeios de carros presentes ao longo da narrativa. No entanto, o peso das palavras negativas pode ser percebido a partir das seções 21 e 24 até o final da trama, condizendo com a sua classificação como "romance trágico".
4 - Palavras que aparecem em pares mais de 10 vezes e seus insights:
Entre os bigramas mais presentes nessa obra estão Old Sport (expressão usada por Gatsby e que ficou associada à figura do próprio Fitzgerald); West Egg (local das residências de Nick e Gatsby, indicando onde boa parte da trama se desenrola) e Gatsby said (as duas palavras que, individualmente, mais aparecem na história (ver wordcloud), sugerindo tratar-se de uma narrativa em terceira pessoa). Outros bigramas apontam para os nomes e sobrenomes de personagens importantes e para mais dois lugares, New York e Long Island.
Conclusão:
A aplicação de técnicas de mineração de textos na obra "O grande Gatsby" extraiu a essência do material escrito por Fitzgerald, mostrando tanto palavras individuais como em pares mais usadas por ele e revelando os sentimentos atribuídos a elas ao longo da narrativa.
Quem leu ambos, a obra de Fitzgerald e este post, pôde constatar que essas técnicas, que nada mais são do que modelos matemáticos e lógica de programação, foram precisas em sua classificação e escoragem de sentimentos, representando bem as ideias do autor. E quem ainda não conhece esse trabalho, passou a ter, com essas informações, uma boa ideia do que o/a espera durante a leitura.
Em termos práticos, no universo das editoras e dos criadores de conteúdo, esses modelos de aprendizagem de máquina são muito utilizados na identificação de padrões de escrita e avaliação de sentimentos em textos, ajudando quem toma decisões a escolher entre manter ou alterar e publicar ou não determinado conteúdo.
Caso tenha interesse, confira o código e outros detalhes desse experimento no Github.
Comments