Daily Scrum — 3 de febrero de 2026

🎯 Objetivo hoy

Inicio de Semana 2: Comenzar con Topic Modeling usando NMF.


✅ ¿Qué hice ayer?

  • Dataset sintético completado: 300+ documentos, 15 documentos “trampa”.
  • Preguntas sintéticas generadas (1000+ preguntas).
  • Revisión de calidad del contenido generado.

🚀 ¿Qué haré hoy?

  1. Construcción de Matriz TF-IDF:
    • Crear script scripts/math/topic_modeling.py.
    • Preprocesamiento de texto: tokenización, stopwords, stemming.
    • Construir matriz TF-IDF a partir de los chunks de Qdrant.
  2. Implementación Pipeline NMF:
    • Configurar NMF con scikit-learn.
    • Probar diferentes números de componentes (k = 3, 5, 10).
    • Implementar función de coste Frobenius como baseline.
  3. Extracción de Tópicos Iniciales:
    • Obtener palabras principales por tópico.
    • Analizar coherencia inicial de los tópicos.

🚧 Obstáculos potenciales

  • Elección óptima de número de tópicos (k).
  • Configuración de parámetros de NMF (regularización, max_iter).

✅ Criterios de aceptación

  • Script topic_modeling.py creado y funcional.
  • Matriz TF-IDF construida correctamente (implementación manual).
  • NMF ejecutado con al menos 3 configuraciones diferentes (k=3,5,10).
  • Tópicos extraídos y palabras principales identificadas.

📊 Progreso del Sprint 6

Semana 1 ✅

  • Prompts de Razonamiento (Chain-of-Thought)
  • Generación de Dataset Sintético

Semana 2 (En progreso)

  • Topic Modeling con NMF
  • Clustering de FAQs (K-Means + FCM)