Este experimento visa classificar o risco de concessão de crédito sobre uma determinada base de dados usando seis modelos diferentes, mas da mesma "família" de árvores de decisão: Decision Tree (Árvore de Decisão), Random Forest (Floresta Aleatória), Bagging (Bootstrappedd Aggregation), AdaBoost, Extremely Randomized Trees (ou Extra Trees) e Gradient Boosting
A base de dados utilizada foi a "Default of Credit Cards", disponibilizada pela UCI. Ela é composta por 30.000 observações e 24 variáveis (além de uma coluna de identificação).
O objetivo da primeira versão deste projeto foi identificar a acurácia dos modelos citados, usando os parâmetros pré-definidos no scikit-learn; ou seja, sem fazer qualquer tipo de ajustes ou tunning nos hiperparâmetros.
O resultado desse primeiro estudo foi:
Gradient Boosting com 82,03% de acurácia;
AdaBoost com 81,88% de acurácia;
Random Forest com 81,64% de acurácia;
Extra Trees com 81,25% de acurácia;
Bagging com 80,31% de acurácia;
Árvore de decisão com 71,92% de acurácia.
O Gradient Boosting apresentou o melhor resultado dentre os seis modelos. E, como pode ser visto, todos algoritmos dos modelos ensemble apresentaram resultados melhores do que o de apenas uma única árvore de decisão.
A próxima etapa deste experimento será otimizar os modelos fazendo ajustes nos hiperparâmetros usando o Randomized Search para comparação dos resultados.
Confira detalhes da primeira parte deste projeto no Github.
Comments