Agente Conversacional con LLM
Este proyecto consistió en el desarrollo completo de un agente conversacional inteligente (chatbot) basado en un modelo de lenguaje (LLM), utilizando como fuente de conocimiento real la página web de “Qué hacer con los niños”. El flujo del proyecto abarca desde la extracción de contenido hasta la exposición de un endpoint funcional, todo encapsulado en contenedores Docker para facilitar el despliegue.
Trabajo realizado
- Web Scraping:
Se desarrolló un script automatizado para extraer artículos, noticias y planes familiares desde la web "quehacerenconlosninos.es", preservando títulos, texto, fechas y estructura del contenido. El scraping fue limpio, robusto y diseñado para ejecutarse de forma recurrente.
- Embedding y Vectorización:
Todo el contenido fue procesado para convertirlo en vectores semánticos utilizando un modelo de embedding. Se almacenaron en un índice de recuperación eficiente, lo que permite que el LLM recupere contexto relevante al recibir una consulta del usuario.
- Creación del Chatbot con LLM:
Se usó Mistral a través de Ollama como modelo base, combinándolo con la recuperación de contexto embebido para generar respuestas precisas y alineadas al contenido extraído. Esto da lugar a un chatbot que puede responder con conocimiento real sobre planes, lugares y actividades para niños en España.
- Automatización con Apache Airflow:
Todo el flujo de scraping y actualización de embeddings fue integrado en un DAG de Airflow, permitiendo que se ejecute automáticamente cada cierto tiempo sin intervención manual. Esto asegura que el conocimiento del chatbot esté siempre actualizado con nuevos artículos de la web.
- Despliegue con FastAPI:
Se creó una API con FastAPI para exponer el chatbot como servicio. El usuario puede enviar una pregunta vía HTTP y recibir una respuesta generada por el modelo, contextualizada con el contenido real del sitio (testeada con Postman).
- Dockerización completa:
Todo el proyecto fue dockerizado: scraping, embeddings, servidor LLM, API y scheduler de Airflow. Esto permite su despliegue en cualquier entorno con un simple docker compose up, ideal para producción o pruebas locales.


En las imágenes se pueden observar el chatbot, impulsado por Mistral vía Ollama, responde preguntas utilizando información real extraída del sitio "Qué hacer con los niños", ofreciendo recomendaciones personalizadas en lenguaje natural. Y el flujo automatizado con Apache Airflow que ejecuta periódicamente el scraping de nuevos artículos y actualiza los embeddings del chatbot para mantenerlo siempre actualizado con contenido real.
Crea tu propia página web con Webador