Com o objetivo de extrair insights de uma base de filmes para seleção e criação de conteúdo para um guia sobre locações em Londres, criei um modelo de Machine Learning que agrupasse os dados da melhor forma possível, usando algoritmos de clusterização.
A base usada foi disponibilizada pelo portal IMDb no site do Kagle, que possui mais de 85 mil filmes, procedentes de países de todas as partes do mundo. Para o meu estudo, utilizei apenas 100 filmes produzidos, parcial ou totalmente, pelo Reino Unido, do ano 2000 em diante, que tivessem notas dadas pelos usuários superiores a 7.
Teoricamente, os filmes poderiam ser agrupados pelos seu gêneros numa ferramenta menos complexa (como uma planilha do Excel). No entanto, um dos problemas observados nesse tipo de dado é que, cada título possui até 3 gêneros diferentes, dificultando a possibilidade de uma categorização única e rápida. Além disso, outras variáveis precisavam ser levadas em consideração pelo modelo, como os "ratings" dos espectadores e os dos críticos, "duração" e "bilheteria mundial" de cada filme e assim por diante. De um total de 22 variáveis disponíveis na base, eu utilizei apenas as 10 mais relevantes.
O meu trabalho foi desenvolvido usando liguaguem R e aplicando os algoritmos de clusterização K-médias, K-medóides e Agrupamentos Hierárquicos; este último, utilizando as medidas de distância single, complete e average linkages e ward. A métrica usada para avaliar o melhor modelo foi o índice Silhouette. Essa métrica também mostrou que a quantidade ideal de classes seria k=10.
O modelo que apresentou a melhor divisão dos filmes em classes foi o Agrupamento Hierárquico da medida Ward, cujo índice Silhouette foi de 0.31. O ranking final ficou assim:
Ward = 0.31
K-medóides = 0.30
Complete linkage = 0.25
K-médias = 0.245
Average linkage = 0.22
Single linkage = 0.21
Apesar do índice Silhouette do K-medóides ficar muito próximo do oferecido pelo ward, a divisão de classes entre esse algortimos foi bem desproporcional: a maior classe do K-medóides ficou com 34 filmes e a menor, com 2. O ward, por sua vez, colocou 19 filmes em sua maior classe e 5, na menor. O eqilíbrio dos grupos do ward pode ser observado em seu dendrograma.
Em termos práticos, o melhor modelo poderá ser usado de, pelo menos, duas formas:
como base para a criação de capítulos do guia sobre filmes em Londres, mencionado no início desse post; e para a classificação das novas produções britânicas (com variáveis similares à do modelo) que forem adicionados à base da IMDb.
Para ver esse estudo na íntegra, incluindo os códigos utilizados no R, através deste PDF.
Comments