Random forest em dados desbalanceados: uma aplicação na modelagem de churn em seguro saúde

Aluno(a): 

  • Gabriel Carneiro Lento

Data: 

27/03/2017 - 15:00

Local: 

Praia de Botafogo, 190, auditório 317 - Rio de Janeiro, RJ

Resumo: 

Neste trabalho estudamos o problema de churn em seguro saúde, isto é, a previsão se o cliente irá cancelar o produto ou serviço em até um período de tempo pré-estipulado. Tradicionalmente, regressão logística é utilizada para modelar a probabilidade de cancelamento do serviço. Atualmente, técnicas modernas de machine learning vêm se tornando cada vez mais populares para esse tipo de problema, com exemplos nas áreas de telecomunicação, bancos, e seguros de carro, dentre outras. Uma das grandes dificuldades nesta modelagem é que apenas uma pequena fração dos clientes de fato cancela o serviço, o que significa que a base de dados tratada é altamente desbalanceada. Técnicas de under-sampling e over-sampling são utilizadas para contornar esse problema. Neste trabalho, aplicamos random forests, que são combinações de árvores de decisão ajustadas em subamostras dos dados, construídas utilizando under-sampling e over-sampling. Ao fim do trabalho comparamos métricas de ajustes obtidas nas diversas especificações dos modelos testados e avaliamos seus resultados dentro e fora da amostra. Observamos que técnicas de random forest utilizando sub-amostras não balanceadas com o tamanho menor do que a amostra original apresentam uma melhora observável na modelagem preditiva de churn, quando comparado com métodos competidores.

*Texto enviado pelo aluno. 

Membros da banca: 

  • Eduardo Fonseca Mendes (orientador) - FGV/ EMAp
  • Rodrigo dos Santos Targino - FGV / EMAp
  • Renato Rocha Souza - FGV / EMAp
  • Carlos Eduardo Mello - UNIRIO