Daily Scrum — 3 de febrero de 2026
🎯 Objetivo hoy
Inicio de Semana 2: Comenzar con Topic Modeling usando NMF.
✅ ¿Qué hice ayer?
- Dataset sintético completado: 300+ documentos, 15 documentos “trampa”.
- Preguntas sintéticas generadas (1000+ preguntas).
- Revisión de calidad del contenido generado.
🚀 ¿Qué haré hoy?
- Construcción de Matriz TF-IDF:
- Crear script
scripts/math/topic_modeling.py. - Preprocesamiento de texto: tokenización, stopwords, stemming.
- Construir matriz TF-IDF a partir de los chunks de Qdrant.
- Crear script
- Implementación Pipeline NMF:
- Configurar NMF con scikit-learn.
- Probar diferentes números de componentes (k = 3, 5, 10).
- Implementar función de coste Frobenius como baseline.
- Extracción de Tópicos Iniciales:
- Obtener palabras principales por tópico.
- Analizar coherencia inicial de los tópicos.
🚧 Obstáculos potenciales
- Elección óptima de número de tópicos (k).
- Configuración de parámetros de NMF (regularización, max_iter).
✅ Criterios de aceptación
- Script
topic_modeling.pycreado y funcional. - Matriz TF-IDF construida correctamente (implementación manual).
- NMF ejecutado con al menos 3 configuraciones diferentes (k=3,5,10).
- Tópicos extraídos y palabras principales identificadas.
📊 Progreso del Sprint 6
Semana 1 ✅
- Prompts de Razonamiento (Chain-of-Thought)
- Generación de Dataset Sintético
Semana 2 (En progreso)
- Topic Modeling con NMF
- Clustering de FAQs (K-Means + FCM)