Real State
Este proyecto combina análisis de datos, machine learning y un chatbot potenciado por un modelo LLM para ayudar a los usuarios a explorar datos inmobiliarios de forma natural y conversacional. El modelo de predicción de precios fue desarrollado sin utilizar ninguna variable derivada directamente del precio objetivo, como por ejemplo el propio price, price_per_sqft o similares. En su lugar, se utilizaron variables disponibles en producción, como la media de precio por estado, ciudad o código postal. Esto garantiza que el modelo pueda ser implementado de manera realista en un entorno productivo, manteniendo un buen rendimiento predictivo y evitando fugas de información.
Trabajo realizado
Este proyecto combina análisis de datos, machine learning y lenguaje natural para abordar un problema real en el sector inmobiliario: entender y predecir el valor de propiedades residenciales en EE.UU. y mejorar la experiencia de consulta mediante un asistente virtual basado en LLM.
Durante el desarrollo se realizaron las siguientes etapas:
-
Análisis exploratorio (EDA): Se exploraron patrones de precio según variables como número de habitaciones, metros cuadrados, estado y ciudad.
-
Modelado predictivo: Se entrenaron modelos de regresión (Random Forest, XGBoost y Linear Regression) para predecir el precio de una propiedad, obteniendo un modelo preciso y robusto tras aplicar escalado, reducción de dimensionalidad (PCA) y validación cruzada.
-
Chatbot con LLM: Se construyó un agente de lenguaje natural que responde preguntas como "¿Qué ciudad tiene más casas por debajo de $400,000?" mediante generación de queries SQL, devolviendo respuestas claras.
-
Interfaz en Streamlit: El asistente se integró en una app interactiva que permite explorar y consultar propiedades sin conocimientos técnicos.

Distribución de precios: se observa una fuerte asimetría positiva, por lo que se aplicó una transformación logarítmica para normalizar los valores y facilitar el modelado. Esto permitió reducir el impacto de propiedades con precios extremadamente altos.
Relación entre precio y número de habitaciones: aunque existe cierta tendencia creciente, también se evidencia una gran dispersión de precios para cada número de habitaciones, lo cual indica que este factor por sí solo no determina el valor final. Además, se diferencian las propiedades ya vendidas y las actualmente en venta.

El modelo de regresión XGBoost permitió predecir precios de viviendas con un MAPE del 17%. Las variables más influyentes fueron el precio promedio por zona y la proporción de habitaciones y baños, resaltando la importancia de la ubicación y la distribución interna del inmueble.

Interfaz visual del ChatBot, realizado con Streamlit.
Crea tu propia página web con Webador