Churn Telecomunicaciones

Modelo de clasificación orientado a identificar clientes con alta probabilidad de darse de baja. El enfoque se centró en maximizar el recall de la clase positiva (clientes que se van).

Trabajo Realizado

Este proyecto tiene como objetivo anticipar qué clientes de una empresa de telecomunicaciones tienen mayor probabilidad de darse de baja (churn), permitiendo a la empresa actuar de forma proactiva para retenerlos. El foco del modelo no es solo lograr una alta precisión general, sino priorizar un alto recall en la clase de clientes que efectivamente se marchan, incluso si eso conlleva predecir falsos positivos (es decir, clientes que se predicen como "churn" pero no se van). Para ello, se realizó un análisis exploratorio exhaustivo (EDA), se diseñaron nuevas variables (feature engineering), se manejó el desbalance de clases mediante resampling en los datos de entrenamiento y se ajustó el umbral de decisión del modelo de clasificación.
Se evaluaron diversos algoritmos, siendo la regresión logística con regularización L1 la que mejor equilibró rendimiento y simplicidad. El resultado fue un modelo capaz de identificar correctamente a más del 90% de los clientes que abandonan, permitiendo implementar estrategias de retención más eficaces. Este tipo de enfoque resulta especialmente valioso en sectores con alta competitividad, donde conservar a los clientes existentes es más rentable que adquirir nuevos.

Durante el desarrollo del proyecto se aplicaron distintas etapas clave:

Análisis exploratorio y visualización (EDA): Se analizaron distribuciones, correlaciones y relaciones entre variables usando Seaborn y Matplotlib, identificando patrones clave asociados al churn.
Preprocesamiento y limpieza de datos: Incluyó el tratamiento de valores nulos, codificación de variables categóricas mediante Label Encoding y One-Hot Encoding, y normalización de variables numéricas.
Ingeniería de características: Se crearon nuevas variables derivadas (como has_addons) y se analizaron redundancias mediante el cálculo del VIF para reducir colinealidad.
Manejo del desbalance: Se aplicó resampling (undersampling) exclusivamente en el conjunto de entrenamiento para corregir el fuerte desbalance de la variable objetivo sin afectar la validez del test set.
Entrenamiento de modelos supervisados: Se probaron múltiples clasificadores (Logistic Regression con penalizaciones L1 y L2, ElasticNet, XGBoost, Decision Trees) ajustando hiperparámetros.
Ajuste del umbral de decisión: Se modificó el umbral de probabilidad predicha (de 0.5 a 0.35) para maximizar el recall de la clase minoritaria (clientes que se dan de baja).
Evaluación con métricas centradas en recall: Se priorizó el recall sobre otras métricas para asegurar que el modelo detecte la mayor cantidad posible de clientes en riesgo de irse, aceptando un mayor número de falsos positivos como compromiso estratégico.
Selección final del modelo: Se eligió la regresión logística con regularización L1 por su buen equilibrio entre interpretabilidad y capacidad predictiva, logrando un recall del 94% para la clase de churn.

Matriz de Confusión: Muestra cómo el modelo predice correctamente a la mayoría de los usuarios que se dan de baja (recall del 94%), aunque a costa de algunos falsos positivos. Esta configuración fue ajustada a un umbral de 0.35 para maximizar la detección de abandonos.

Curva ROC: Con un AUC de 0.86, el modelo demuestra buena capacidad de discriminación entre usuarios que se quedan y los que se van, validando su solidez como clasificador.

Más información en el Repositorio.

Churn Telecomunicaciones

Trabajo Realizado

Crea tu propia página web con Webador