Aplicando Processamento de Linguagem Natural (PLN) no romance de Ernest Hemingway.
Romances, cafés e touradas com Hemingway
Ernest Hemingway (1899 – 1961) já tinha escrito muitas reportagens, alguns contos e a sátira "As torrentes da primavera" (1926), quando teve a sua primeira grande história de ficção publicada: o romance "O sol também se levanta" (The sun also rises), lançado ao público em outubro de 1926, pela editora Charles Scribner´s Sons (a mesma de Scott Fitzgerald).
Ambientado após a "Grande Guerra" (ou seja, a Primeira Guerra Mundial) e narrado pelo ex-combatente Jake Barnes, "O sol também se levanta" apresenta-nos a um grupo de cinco expatriados – três americanos, uma inglesa e um escocês – que vivem ou passeiam por Paris e, depois, vão curtir a Fiesta de San Fermín, em Pamplona, na Espanha. Inspirado em acontecimentos vividos pelo escritor e um grupo de amigos seus, entre os anos 1924 e 1925, esse romance mescla amores não consumados, rivalidades masculinas e uma personagem feminina marcante (Lady Brett Ashley) com muita conversa jogada fora nas mesas do café parisiense Le Select e do pamplonês Café Iruña.
Considerado o primeiro romance de ficção de Hemingway, esse livro foi muito bem recebido pelo público da época, atravessou a História como um dos mais lidos e, de quebra, ainda foi transformado numa espécie de "guia" de Pamplona para as festividades ocorridas no mês de julho de cada ano. Com ele, o escritor-jornalista lançou o seu estilo simples e direto de escrever, pontuado por frases curtas e poucos adjetivos, que marcou toda a sua obra e pelo qual ficou famoso.
Iremos conhecer um pouco mais sobre essa estória, as palavras escolhidas pelo escritor e os sentimentos que elas carregam através desse trabalho de processamento de linguagem natural.
A mineração de "O sol também se levanta"
O objetivo desse experimento foi responder as seguintes perguntas:
Quais palavras Hemingway mais usou em seu romance?
Será que modelos de mineração de textos para análise de sentimentos dessas palavras conseguirão captar as emoções transmitidas por ele?
E se fizerem isso, será que um escore atribuindo pesos a esses sentimentos revelarão um arco narrativo condizente com o que foi percebido pelos leitores do livro?
E, por fim, quais palavras aparecem juntas mais vezes e que insights elas oferecem sobre a trama?
Bibliotecas e base de dados:
As técnicas de mineração de texto aplicadas nesse projeto foram (1) wordcloud ou nuvem de palavras, (2) classificação de sentimentos usando o Opinion Lexicon do pacote NLTK (Natural Language Toolkit), (3) escoragem de sentimento com AFINN e (4) pares de palavras com Networkx, todas programadas em linguagem Python. Quanto ao texto, ele foi coletado no site Project Gutenberg, onde encontra-se disponível no idioma inglês.
Respostas & Insights:
1 - Palavras usadas por Hemingway em "The sun also rises":
A criação de uma wordcloud mostrou que esse romance possui mais de 70.000 palavras, sendo 54,2% de stopwords (ou seja, palavras sem relevância para a análise textual) e 45,8% de palavras informativas. Dessas últimas, as que mais aparecem no texto são o nome de Brett, a principal personagem feminina da estória; os verbos said (disse) e went (foi), seguidas dos nomes dos personagens Mike, Cohn e Bill, além do substantivo bull (touro), animal presente nas touradas, uma das paixões de Hemingway transmitida para Jake Barnes.
2 - Análise de sentimentos negativos e positivos:
A análise de sentimentos mostrou que o texto possui 55,4% de palavras positivas e 44,6% de negativas. Isso faz sentido diante do contexto dessa trama, repleta de festividades, touradas, pescarias, idas a cafés e restaurantes. Boa parte dos sentimentos negativos pode ser atribuída tanto ao amargor que, de tempos em tempos, toma conta dos pensamentos de Barnes como as disputas entre Mike e Cohn pelo amor de Brett.
3 - Descobrindo o peso das palavras negativas e positivas com Escore de Sentimentos:
O escore de sentimentos atribuiu peso aos sentimentos das palavras numa escala de -5 (muito negativa) até 5 (muito positiva). Do total de palavras informativas do texto, 18,4% receberam escore -2 e 12% de escore -3 contra 24,6% de escore 2 e 24,8% de escore 3. Ao que parece, Hemingway não utilizou palavras com o nível de sentimento positivo máximo (escore 5).
O escore de sentimentos também foi usado para dar peso ao arco narrativo da estória. No gráfico abaixo, a linha cinza representa os altos e baixos dos sentimentos ao longo do texto (agrupados em seções com 100 linhas/cada) e a linha verde-escuro, a média móvel desses sentimentos.
Observa-se que, apesar de alguns pontos baixos, especialmente depois do meio para o final do texto, essa é uma estória de sentimentos, majoritariamente, positivos. São mais de 27 seções com média móvel acima de 0.0 (linha preta). Curiosamente, tal como o seu compatriota e amigo de então, Scott Fitzgerald, Hemingway também preferia dar finais pouco convencionais para os seus personagens (confira o post Minerando "O grande Gatsby", de Fitzgerald, e tire as suas conclusões sobre esse assunto).
4 - Palavras que aparecem em pares mais de 10 vezes e seus insights:
O gráfico abaixo mostra os bigramas mais presentes nessa obra. Entre eles estão Robert Cohn (amigo e rival de Barnes); Pedro Romero (o melhor toureiro daquela temporada e ladrão do coração de Brett), bull fight/fighters (tourada e toureiros), San Sebastian (onde os personagens passam alguns dias antes ou depois da Fiesta) e Brett/Bill/Mike/Robert said (indicando tratar-se de uma narrativa em terceira pessoa; no caso, de Jake Barnes).
Conclusão:
A aplicação de técnicas de mineração de textos na obra "O sol também se levanta" extraiu a essência do texto de Hemingway, mostrando tanto as palavras individuais como em pares mais usadas por ele e indicando os sentimentos que elas representam ao longo da narrativa.
Quem nunca leu esse romance logo percebe que trata-se de uma estória narrada por alguém, vivida por esse alguém e personagens chamados Brett, Mike, Cohn, Bill e Pedro Romero. Também fica claro que os momentos de alegria (sentimentos positivos) dessa estória superam os de tristeza e drama (sentimentos negativos), mesmo tendo um final relativamente dramático, indicado pelo gráfico do arco narrativo.
Caso tenha interesse, confira o código e outros detalhes desse experimento no Github.
Comments