
O objetivo deste projeto foi avaliar qual modelo de machine learning, dentre oito algoritmos de aprendizagem supervisionada testados, apresentaria o melhor resultado na classificação de risco de crédito usando as métricas de Acurácia, F1 Score e Teste KS como referências.
Na primeira versão do modelo, oito algoritmos foram utilizados: Árvore de Decisão e os Métodos Ensemble AdaBoost, Bagging (Bootstrappedd Aggregation), CatBoost, Extremely Randomized Trees (Extra Trees), Gradient Boosting, LightGBM e Random Forest (Floresta Aleatória).
A base de dados utilizada foi a "Default of Credit Cards", disponibilizada pela UCI. Ela é composta por 30.000 observações e 23 variáveis, sendo uma delas o target (adimplente ou inadimplente).
Nesta versão, não foram feitas alterações nos hiperparâmetros dos modelos. Sendo assim, os melhores resultados foram obtidos com o LightGBM (Acurácia), CatBoost (F1 Score) e Gradient Boosting (Teste KS). Como seria de se esperar, a Árvore de Decisão apresentou os resultados mais baixos, considerando as 3 métricas, em relação ao algoritmos Ensemble.
Resultados iniciais
Métrica: Acurácia
LightGBM = 0.8223
CatBoost = 0.8222
Gradient Boosting = 0.8202
AdaBoost = 0.8188
Random Forest = 0.8142
Extra Trees = 0.8089
Bagging = 0.8032
Árvore de decisão = 0.7192
Métrica: F1 Score
CatBoost = 0.4835
LightGBM = 0.4824
Gradient Boosting = 0.4726
Random Forest = 0.4662
Extra Trees = 0.4584
AdaBoost = 0.4450
Bagging = 0.4369
Árvore de decisão = 0.3944
Métrica: Teste KS
Gradient Boosting = 0.4396
CatBoost = 0.4338
LightGBM = 0.4282
AdaBoost = 0.4237
Random Forest = 0.4087
Extra Trees = 0.3939
Bagging = 0.3447
Árvore de decisão = 0.2180
Os próximos passos serão a) executar a mesma base de dados com modelos de redes neurais artificiais profundas; e b) fazer ajustes de hiperparâmetros em todos os algoritmos para descobrirmos o quanto de otimização cada um apresentará.
Se desejar, confira detalhes dessa primeira parte deste projeto no Github.
コメント