Daily Scrum - 15 de Octubre 2025

🎯 Sprint 2 - Día 2

Continuando con la puesta en marcha del sistema RAG para el chatbot educativo.

✅ ¿Qué hice ayer?

Breve resumen del día anterior (continuación del arranque del sprint): investigación y definición de objetivos para el sistema RAG, evaluación de alternativas de almacenamiento vectorial y modelos de embeddings, y primer boceto de la estructura del microservicio.

🚀 ¿Qué haré hoy?

Implementaré el servicio de embeddings como componente reutilizable y su inicialización en el entorno de desarrollo.
Conectaré un cliente para el almacén vectorial y verifiquaré la creación inicial de la colección necesaria para el índice.
Implementaré el flujo básico de indexado: toma de texto, generación de embeddings y subida de vectores al índice.
Desarrollaré utilidades para la ingesta y normalización de documentos (soporte para texto y markdown, extracción básica desde PDFs y organización por asignatura/tipo).
Añadiré endpoints HTTP básicos para exponer operaciones de indexado, búsqueda y gestión de archivos (stubs funcionales para pruebas manuales en local).
Definiré los esquemas de entrada/salida y el formato de metadata requerido para los documentos.
Prepararé documentación de uso inicial y notas para ejecutar el servicio en un entorno orquestado para pruebas locales.

⚠️ Obstáculos

Comprobar la disponibilidad del modelo de embeddings en el entorno de ejecución (descarga/estado).
Necesidad de definir una estrategia robusta para generación de IDs de los vectores y evitar colisiones en reindexaciones.
Evaluar y ajustar parámetros de chunking para equilibrar calidad de recuperación y coste de cómputo.

💡 Decisiones técnicas (preliminares)

Uso de una base vectorial escalable y un modelo de embeddings de dimensiones moderadas para prototipado.
Diseño modular: separar servicio de embeddings, store vectorial y procesamiento de documentos para facilitar pruebas y evolución.

📌 Próximos pasos

Implementar y ejecutar la suite de tests (planificado para el día siguiente).
Revisar la generación de IDs para los vectores (UUIDs o hash de doc+chunk).
Añadir mecanismos de robustez: timeouts, retries y batching en operaciones con servicios externos.
Ajustar y validar parámetros de chunking (tamaño/overlap) con datos reales.