Course Engagement

En esta página encontrarás información detallada sobre mi proyecto de Course Engagement. Descubre cómo mi experiencia en análisis de datos y consultoría en Python y Machine Learning puede beneficiar tu negocio.

Trabajo realizado

 

Este proyecto surge del análisis de datos de plataformas educativas online con el objetivo de predecir si un estudiante obtendrá o no la certificación final de un curso, sin utilizar datos que introduzcan fuga de información. A partir de un dataset con información demográfica como país, género y tipo de curso, se realizó un análisis exploratorio (EDA) para identificar patrones de comportamiento entre usuarios que completaron el curso y aquellos que no. Se descartaron variables como `viewed`, `total_days` o `active_engagement` debido a que estas están altamente correlacionadas con el resultado final y su uso haría que el modelo “adivinara” sin generalizar. 

Durante el desarrollo del proyecto se aplicaron distintas etapas clave:

Análisis exploratorio y visualización: uso de herramientas como Seaborn y Matplotlib para identificar sesgos, relaciones entre variables y entender la distribución de los datos.
- Limpieza y preprocesamiento: tratamiento de valores nulos, codificación de variables categóricas y estandarización de campos relevantes.
- Construcción de modelos supervisados: se entrenaron modelos de clasificación (como Random Forest, Logistic Regression y XGBoost) y se evaluaron usando métricas como Accuracy, F1 Score, Recall y Matriz de Confusión.
- Validación cruzada y comparación de modelos: se seleccionó el modelo con mejor rendimiento general en datos de validación.
- Interpretabilidad del modelo: análisis de importancia de variables para entender qué factores influencian la probabilidad de certificación.

Al final del trabajo realicé un dashboard con PowerBI para una mejor visualizacion de los datos.

 

Curva ROC del modelo

A continuación se muestra la curva ROC generada para evaluar el rendimiento del modelo de clasificación. Esta gráfica permite visualizar la relación entre la tasa de verdaderos positivos (TPR) y la tasa de falsos positivos (FPR), lo cual es especialmente útil en contextos con clases desbalanceadas.