Daily Scrum - 15 de Octubre 2025

🎯 Sprint 2 - Día 2

Continuando con la puesta en marcha del sistema RAG para el chatbot educativo.


✅ ¿Qué hice ayer?

Breve resumen del día anterior (continuación del arranque del sprint): investigación y definición de objetivos para el sistema RAG, evaluación de alternativas de almacenamiento vectorial y modelos de embeddings, y primer boceto de la estructura del microservicio.


🚀 ¿Qué haré hoy?

  • Implementaré el servicio de embeddings como componente reutilizable y su inicialización en el entorno de desarrollo.
  • Conectaré un cliente para el almacén vectorial y verifiquaré la creación inicial de la colección necesaria para el índice.
  • Implementaré el flujo básico de indexado: toma de texto, generación de embeddings y subida de vectores al índice.
  • Desarrollaré utilidades para la ingesta y normalización de documentos (soporte para texto y markdown, extracción básica desde PDFs y organización por asignatura/tipo).
  • Añadiré endpoints HTTP básicos para exponer operaciones de indexado, búsqueda y gestión de archivos (stubs funcionales para pruebas manuales en local).
  • Definiré los esquemas de entrada/salida y el formato de metadata requerido para los documentos.
  • Prepararé documentación de uso inicial y notas para ejecutar el servicio en un entorno orquestado para pruebas locales.

⚠️ Obstáculos

  • Comprobar la disponibilidad del modelo de embeddings en el entorno de ejecución (descarga/estado).
  • Necesidad de definir una estrategia robusta para generación de IDs de los vectores y evitar colisiones en reindexaciones.
  • Evaluar y ajustar parámetros de chunking para equilibrar calidad de recuperación y coste de cómputo.

💡 Decisiones técnicas (preliminares)

  • Uso de una base vectorial escalable y un modelo de embeddings de dimensiones moderadas para prototipado.
  • Diseño modular: separar servicio de embeddings, store vectorial y procesamiento de documentos para facilitar pruebas y evolución.

📌 Próximos pasos

  • Implementar y ejecutar la suite de tests (planificado para el día siguiente).
  • Revisar la generación de IDs para los vectores (UUIDs o hash de doc+chunk).
  • Añadir mecanismos de robustez: timeouts, retries y batching en operaciones con servicios externos.
  • Ajustar y validar parámetros de chunking (tamaño/overlap) con datos reales.