Transformers y mecanismos de atención
Curso universitario avanzado de Deep Learning centrado en la arquitectura Transformer y los mecanismos de atención, base tecnológica de los modelos de lenguaje y visión contemporáneos. Situado a nivel de posgrado (maestría) o últimos años de grado en Ciencia de la Computación e Inteligencia Artificial, integra fundamentos matemáticos, implementación práctica en PyTorch y análisis crítico de arquitecturas de estado del arte. Al finalizar, el estudiante será capaz de diseñar, entrenar, evaluar y adaptar arquitecturas basadas en atención para tareas de procesamiento de lenguaje natural, visión y modelado multimodal. El egresado dominará tanto la teoría de la autoatención como las técnicas de escalado, fine-tuning eficiente y despliegue responsable de modelos fundacionales.
Prerrequisitos
- Álgebra lineal a nivel universitario (producto matricial, autovalores, descomposiciones)
- Cálculo multivariable y optimización (gradientes, regla de la cadena, descenso de gradiente)
- Probabilidad y estadística (distribuciones, entropía, estimación de máxima verosimilitud)
- Programación en Python y experiencia previa con redes neuronales en PyTorch o TensorFlow
- Fundamentos de aprendizaje automático supervisado (regresión, clasificación, regularización)
Contenido del curso
Modelado de secuencias y el camino hacia la atención
- Representación de secuencias y embeddings
- Redes recurrentes y el gradiente evanescente
- Métricas de evaluación en modelado de lenguaje
- Síntesis: por qué necesitamos atención
El mecanismo de atención: fundamentos
- Atención como recuperación suave: query, key y value
- Atención de producto escalar escalado
- Variantes históricas: Bahdanau vs. Luong
- Síntesis: la geometría de la atención
La arquitectura Transformer completa
- Autoatención y atención multicabeza
- Codificación posicional
- Residuales, normalización y feed-forward
- Síntesis: recorriendo el flujo encoder-decoder
Implementación y entrenamiento de Transformers
- Construcción del Transformer en PyTorch
- Estrategias de optimización y scheduling
- Regularización y diagnóstico de entrenamiento
- Síntesis: entrenando un modelo end-to-end
Modelos preentrenados: BERT, GPT y el paradigma fundacional
- Preentrenamiento auto-supervisado
- Tokenización subpalabra
- Fine-tuning para tareas de NLP
- Síntesis: comparando familias arquitectónicas
Interpretabilidad y análisis de patrones de atención
- Visualización de mapas de atención
- Análisis de cabezas especializadas
- Probing de representaciones internas
- Síntesis: qué aprenden realmente los Transformers
Escalado de modelos y leyes de escala
- Leyes de escala: Kaplan y Chinchilla
- Paralelismo de datos, modelo y pipeline
- Precisión mixta y eficiencia de memoria
- Síntesis: presupuesto óptimo de cómputo
Atención eficiente y arquitecturas de contexto largo
- El problema de la complejidad cuadrática
- Atención dispersa y aproximaciones lineales
- FlashAttention y optimización de memoria
- Síntesis: seleccionando la arquitectura eficiente adecuada
Transformers multimodales
- Vision Transformer y parcheo de imágenes
- Modelos contrastivos texto-imagen
- Atención cruzada multimodal
- Síntesis: CNN vs. Transformers en visión
Adaptación eficiente y alineación de modelos
- Fine-tuning eficiente en parámetros
- Aprendizaje en contexto e instruction tuning
- RLHF y alineación con preferencias humanas
- Síntesis: elegir la estrategia de adaptación
Evaluación crítica, sesgos y despliegue responsable
- Benchmarks y sus limitaciones metodológicas
- Sesgos, toxicidad y alucinaciones
- Cuantización y destilación para producción
- Síntesis: marco de despliegue responsable
Fronteras de investigación y proyecto final
- Lectura crítica de literatura de vanguardia
- Diseño experimental y reproducibilidad
- Desarrollo del proyecto original
- Síntesis: presentación y defensa del proyecto
Regístrate gratis en moritalearn.com para comprar este curso con créditos o generar el tuyo propio sobre cualquier tema.