Serie Temporal Ventas Futuras
Este proyecto consiste en un análisis exploratorio de datos (EDA) aplicado a un conjunto de ventas globales con el objetivo de identificar patrones, correlaciones y oportunidades de negocio en distintos mercados.
Trabajo realizado
Este proyecto consistió en el análisis y modelado de una serie temporal con el objetivo de predecir valores futuros. El dataset se estructuraba en formato temporal y requería una estrategia que permitiera capturar las tendencias y patrones históricos para hacer proyecciones con precisión.
Inicialmente, se aplicaron modelos ARIMA y SARIMA, técnicas tradicionales en el análisis de series temporales. Se realizaron pruebas de estacionariedad, descomposición de la serie, y ajuste de parámetros (p, d, q) usando criterios como AIC y BIC. Sin embargo, los resultados obtenidos no fueron satisfactorios en términos de precisión y capacidad predictiva, mostrando errores elevados y dificultades para adaptarse a la variabilidad de los datos.
Ante esto, se decidió redirigir el enfoque hacia modelos de regresión supervisada, transformando el problema de serie temporal en uno de predicción multivariable. Se generaron características como retardos temporales (lags), variables derivadas de la tendencia, y componentes de estacionalidad (como el mes o el día).
Se entrenaron múltiples algoritmos de regresión, entre ellos: XGBoost, LightGBM, Random Forest, Linear Regression, Ridge, LASSO, ElasticNet, Support Vector Regression, Bayesian Ridge.
Los modelos fueron evaluados con métricas como RMSE, MAE y R² Score, y se aplicó validación cruzada con división temporal para evitar fugas de información. Los resultados mostraron una mejora significativa respecto a ARIMA, especialmente en modelos como LinearRegression y BayesianRidge, que capturaron mejor las no linealidades y patrones ocultos.
Este proyecto demuestra cómo el uso de machine learning en series temporales puede superar a modelos clásicos cuando los datos presentan estructuras complejas o no completamente estacionarias. Además, destaca la importancia de la ingeniería de características en contextos temporales.

Este gráfico compara las ventas reales con las ventas predichas por el modelo de regresión lineal. La línea roja representa la línea de predicción ideal (donde y = x). Como se observa, la mayoría de los puntos se alinean bastante bien con esta línea, lo que indica que el modelo logra una buena aproximación de los valores reales. Aunque existen algunas desviaciones en extremos (especialmente en valores altos), el modelo captura adecuadamente la tendencia general de la serie. Esto sugiere que, pese a su simplicidad, la regresión lineal puede ofrecer una predicción razonable cuando se combinan adecuadamente las variables temporales y se realiza una correcta ingeniería de características.

El análisis de residuos muestra un buen ajuste del modelo. Los errores se distribuyen de forma aproximadamente normal y aleatoria, sin patrones evidentes ni heterocedasticidad, lo que indica que los supuestos básicos de regresión se cumplen adecuadamente.
Luego para mostrar todos los resultados en una presentación cree un dashboard en PowerBI, estan todos los modelos realizados.

Crea tu propia página web con Webador