Daily Scrum — 3 de febrero de 2026

🎯 Objetivo hoy

Inicio de Semana 2: Comenzar con Topic Modeling usando NMF.

✅ ¿Qué hice ayer?

Dataset sintético completado: 300+ documentos, 15 documentos “trampa”.
Preguntas sintéticas generadas (1000+ preguntas).
Revisión de calidad del contenido generado.

🚀 ¿Qué haré hoy?

Construcción de Matriz TF-IDF:
- Crear script scripts/math/topic_modeling.py.
- Preprocesamiento de texto: tokenización, stopwords, stemming.
- Construir matriz TF-IDF a partir de los chunks de Qdrant.
Implementación Pipeline NMF:
- Configurar NMF con scikit-learn.
- Probar diferentes números de componentes (k = 3, 5, 10).
- Implementar función de coste Frobenius como baseline.
Extracción de Tópicos Iniciales:
- Obtener palabras principales por tópico.
- Analizar coherencia inicial de los tópicos.

🚧 Obstáculos potenciales

Elección óptima de número de tópicos (k).
Configuración de parámetros de NMF (regularización, max_iter).

✅ Criterios de aceptación

Script topic_modeling.py creado y funcional.
Matriz TF-IDF construida correctamente (implementación manual).
NMF ejecutado con al menos 3 configuraciones diferentes (k=3,5,10).
Tópicos extraídos y palabras principales identificadas.

📊 Progreso del Sprint 6

Semana 1 ✅

Prompts de Razonamiento (Chain-of-Thought)
Generación de Dataset Sintético

Semana 2 (En progreso)

Topic Modeling con NMF
Clustering de FAQs (K-Means + FCM)