top of page

Modelos de classificação de crédito - v1

Foto do escritor: Fran MateusFran Mateus

Foto: Mídia do Wix
Foto: Mídia do Wix

O objetivo deste projeto foi avaliar qual modelo de machine learning, dentre oito algoritmos de aprendizagem supervisionada testados, apresentaria o melhor resultado na classificação de risco de crédito usando as métricas de Acurácia, F1 Score e Teste KS como referências.


Na primeira versão do modelo, oito algoritmos foram utilizados: Árvore de Decisão e os Métodos Ensemble AdaBoost, Bagging (Bootstrappedd Aggregation), CatBoost, Extremely Randomized Trees (Extra Trees), Gradient Boosting, LightGBM e Random Forest (Floresta Aleatória).


A base de dados utilizada foi a "Default of Credit Cards", disponibilizada pela UCI. Ela é composta por 30.000 observações e 23 variáveis, sendo uma delas o target (adimplente ou inadimplente).


Nesta versão, não foram feitas alterações nos hiperparâmetros dos modelos. Sendo assim, os melhores resultados foram obtidos com o LightGBM (Acurácia), CatBoost (F1 Score) e Gradient Boosting (Teste KS). Como seria de se esperar, a Árvore de Decisão apresentou os resultados mais baixos, considerando as 3 métricas, em relação ao algoritmos Ensemble.


 

Resultados iniciais


Métrica: Acurácia

  1. LightGBM = 0.8223

  2. CatBoost = 0.8222

  3. Gradient Boosting = 0.8202

  4. AdaBoost = 0.8188

  5. Random Forest = 0.8142

  6. Extra Trees = 0.8089

  7. Bagging = 0.8032

  8. Árvore de decisão = 0.7192


Métrica: F1 Score

  1. CatBoost = 0.4835

  2. LightGBM = 0.4824

  3. Gradient Boosting = 0.4726

  4. Random Forest = 0.4662

  5. Extra Trees = 0.4584

  6. AdaBoost = 0.4450

  7. Bagging = 0.4369

  8. Árvore de decisão = 0.3944


Métrica: Teste KS

  1. Gradient Boosting = 0.4396

  2. CatBoost = 0.4338

  3. LightGBM = 0.4282

  4. AdaBoost = 0.4237

  5. Random Forest = 0.4087

  6. Extra Trees = 0.3939

  7. Bagging = 0.3447

  8. Árvore de decisão = 0.2180


 

Os próximos passos serão a) executar a mesma base de dados com modelos de redes neurais artificiais profundas; e b) fazer ajustes de hiperparâmetros em todos os algoritmos para descobrirmos o quanto de otimização cada um apresentará.


Se desejar, confira detalhes dessa primeira parte deste projeto no Github.

コメント


bottom of page