top of page
Foto do escritorFran Mateus

Classificação de risco de crédito usando métodos Ensemble

Atualizado: 2 de nov. de 2022


Este experimento visa classificar o risco de concessão de crédito sobre uma determinada base de dados usando seis modelos diferentes, mas da mesma "família" de árvores de decisão: Decision Tree (Árvore de Decisão), Random Forest (Floresta Aleatória), Bagging (Bootstrappedd Aggregation), AdaBoost, Extremely Randomized Trees (ou Extra Trees) e Gradient Boosting


A base de dados utilizada foi a "Default of Credit Cards", disponibilizada pela UCI. Ela é composta por 30.000 observações e 24 variáveis (além de uma coluna de identificação).


O objetivo da primeira versão deste projeto foi identificar a acurácia dos modelos citados, usando os parâmetros pré-definidos no scikit-learn; ou seja, sem fazer qualquer tipo de ajustes ou tunning nos hiperparâmetros.


O resultado desse primeiro estudo foi:

  1. Gradient Boosting com 82,03% de acurácia;

  2. AdaBoost com 81,88% de acurácia;

  3. Random Forest com 81,64% de acurácia;

  4. Extra Trees com 81,25% de acurácia;

  5. Bagging com 80,31% de acurácia;

  6. Árvore de decisão com 71,92% de acurácia.

O Gradient Boosting apresentou o melhor resultado dentre os seis modelos. E, como pode ser visto, todos algoritmos dos modelos ensemble apresentaram resultados melhores do que o de apenas uma única árvore de decisão.


A próxima etapa deste experimento será otimizar os modelos fazendo ajustes nos hiperparâmetros usando o Randomized Search para comparação dos resultados.

 

Confira detalhes da primeira parte deste projeto no Github.






Comments


bottom of page