top of page
Foto do escritorFran Mateus

Clusterização de filmes para criação de conteúdo sobre Londres

Atualizado: 9 de set. de 2022



Com o objetivo de extrair insights de uma base de filmes para seleção e criação de conteúdo para um guia sobre locações em Londres, criei um modelo de Machine Learning que agrupasse os dados da melhor forma possível, usando algoritmos de clusterização.


A base usada foi disponibilizada pelo portal IMDb no site do Kagle, que possui mais de 85 mil filmes, procedentes de países de todas as partes do mundo. Para o meu estudo, utilizei apenas 100 filmes produzidos, parcial ou totalmente, pelo Reino Unido, do ano 2000 em diante, que tivessem notas dadas pelos usuários superiores a 7.


Teoricamente, os filmes poderiam ser agrupados pelos seu gêneros numa ferramenta menos complexa (como uma planilha do Excel). No entanto, um dos problemas observados nesse tipo de dado é que, cada título possui até 3 gêneros diferentes, dificultando a possibilidade de uma categorização única e rápida. Além disso, outras variáveis precisavam ser levadas em consideração pelo modelo, como os "ratings" dos espectadores e os dos críticos, "duração" e "bilheteria mundial" de cada filme e assim por diante. De um total de 22 variáveis disponíveis na base, eu utilizei apenas as 10 mais relevantes.


O meu trabalho foi desenvolvido usando liguaguem R e aplicando os algoritmos de clusterização K-médias, K-medóides e Agrupamentos Hierárquicos; este último, utilizando as medidas de distância single, complete e average linkages e ward. A métrica usada para avaliar o melhor modelo foi o índice Silhouette. Essa métrica também mostrou que a quantidade ideal de classes seria k=10.


O modelo que apresentou a melhor divisão dos filmes em classes foi o Agrupamento Hierárquico da medida Ward, cujo índice Silhouette foi de 0.31. O ranking final ficou assim:

  1. Ward = 0.31

  2. K-medóides = 0.30

  3. Complete linkage = 0.25

  4. K-médias = 0.245

  5. Average linkage = 0.22

  6. Single linkage = 0.21


Apesar do índice Silhouette do K-medóides ficar muito próximo do oferecido pelo ward, a divisão de classes entre esse algortimos foi bem desproporcional: a maior classe do K-medóides ficou com 34 filmes e a menor, com 2. O ward, por sua vez, colocou 19 filmes em sua maior classe e 5, na menor. O eqilíbrio dos grupos do ward pode ser observado em seu dendrograma.



Em termos práticos, o melhor modelo poderá ser usado de, pelo menos, duas formas:

como base para a criação de capítulos do guia sobre filmes em Londres, mencionado no início desse post; e para a classificação das novas produções britânicas (com variáveis similares à do modelo) que forem adicionados à base da IMDb.


Para ver esse estudo na íntegra, incluindo os códigos utilizados no R, através deste PDF.



Comments


bottom of page