Análise Discriminante em Detecção de Risco de Crédito

Data de entrega: 26 de fevereiro de 2026

1 Contexto

Uma instituição financeira deseja desenvolver um sistema de apoio à decisão para identificar clientes com alto risco de inadimplência a partir de informações comportamentais e financeiras recentes.

Cada cliente foi classificado historicamente em duas populações:

Adimplente: clientes que mantêm pagamentos regulares
Risco: clientes que apresentaram atraso ou inadimplência relevante

O objetivo da equipe de análise é construir e avaliar funções discriminantes capazes de separar essas populações e apoiar o processo de análise de crédito.

2 Base de dados

A base de dados contém as seguintes variáveis:

valor_limite: limite total de crédito disponível
dias_atraso_medio: média de dias de atraso nos últimos 12 meses
qt_atrasos_12m: número de atrasos registrados
ratio_divida_renda: razão dívida/renda mensal
dist_agencia_resid: distância entre residência e agência mais próxima
mudancas_endereco_6m: mudanças de endereço recentes
classe: população (Adimplente ou Risco)

Os dados para esta análise estão disponíveis aqui.

3 Etapas obrigatórias da análise

O aluno deverá realizar uma análise discriminante completa para classificar clientes em duas populações (Adimplente vs Risco), reproduzindo todas as etapas de um estudo aplicado. Em síntese, espera-se que o aluno:

Explorar os dados: analisar estrutura, distribuições, boxplots, relações bivariadas e matrizes de correlação por grupo.
Verificar suposições: aplicar o teste de Box (Box’s M) e comparar as matrizes de covariância das populações.
Estimar modelos discriminantes:
- Função Discriminante Linear (LDA)
- Função Discriminante Quadrática (QDA)
Visualizar e interpretar:
- projeção na função discriminante
- separação entre os grupos
- importância das variáveis.
Avaliar desempenho preditivo usando três abordagens:
- método da ressubstituição,
- divisão treino/teste,
- validação cruzada.
Comparar LDA e QDA, discutindo qual modelo é mais adequado ao problema.
Produzir interpretação final, relacionando resultados estatísticos com o contexto aplicado de risco de crédito.