Transformers y mecanismos de atención

Curso generado con IA · 12 módulos · publicado por Julian Hernandez · 200 créditos

Curso universitario avanzado de Deep Learning centrado en la arquitectura Transformer y los mecanismos de atención, base tecnológica de los modelos de lenguaje y visión contemporáneos. Situado a nivel de posgrado (maestría) o últimos años de grado en Ciencia de la Computación e Inteligencia Artificial, integra fundamentos matemáticos, implementación práctica en PyTorch y análisis crítico de arquitecturas de estado del arte. Al finalizar, el estudiante será capaz de diseñar, entrenar, evaluar y adaptar arquitecturas basadas en atención para tareas de procesamiento de lenguaje natural, visión y modelado multimodal. El egresado dominará tanto la teoría de la autoatención como las técnicas de escalado, fine-tuning eficiente y despliegue responsable de modelos fundacionales.

Duración: 52 semanas — 2 semestres de 26 semanas cada uno

Prerrequisitos

Álgebra lineal a nivel universitario (producto matricial, autovalores, descomposiciones)
Cálculo multivariable y optimización (gradientes, regla de la cadena, descenso de gradiente)
Probabilidad y estadística (distribuciones, entropía, estimación de máxima verosimilitud)
Programación en Python y experiencia previa con redes neuronales en PyTorch o TensorFlow
Fundamentos de aprendizaje automático supervisado (regresión, clasificación, regularización)

Contenido del curso

Módulo 1 Semanas 1-4

Modelado de secuencias y el camino hacia la atención

Representación de secuencias y embeddings
Redes recurrentes y el gradiente evanescente
Métricas de evaluación en modelado de lenguaje
Síntesis: por qué necesitamos atención

Módulo 2 Semanas 5-8

El mecanismo de atención: fundamentos

Atención como recuperación suave: query, key y value
Atención de producto escalar escalado
Variantes históricas: Bahdanau vs. Luong
Síntesis: la geometría de la atención

Módulo 3 Semanas 9-13

La arquitectura Transformer completa

Autoatención y atención multicabeza
Codificación posicional
Residuales, normalización y feed-forward
Síntesis: recorriendo el flujo encoder-decoder

Módulo 4 Semanas 14-17

Implementación y entrenamiento de Transformers

Construcción del Transformer en PyTorch
Estrategias de optimización y scheduling
Regularización y diagnóstico de entrenamiento
Síntesis: entrenando un modelo end-to-end

Módulo 5 Semanas 18-21

Modelos preentrenados: BERT, GPT y el paradigma fundacional

Preentrenamiento auto-supervisado
Tokenización subpalabra
Fine-tuning para tareas de NLP
Síntesis: comparando familias arquitectónicas

Módulo 6 Semanas 22-26

Interpretabilidad y análisis de patrones de atención

Visualización de mapas de atención
Análisis de cabezas especializadas
Probing de representaciones internas
Síntesis: qué aprenden realmente los Transformers

Módulo 7 Semanas 27-30

Escalado de modelos y leyes de escala

Leyes de escala: Kaplan y Chinchilla
Paralelismo de datos, modelo y pipeline
Precisión mixta y eficiencia de memoria
Síntesis: presupuesto óptimo de cómputo

Módulo 8 Semanas 31-34

Atención eficiente y arquitecturas de contexto largo

El problema de la complejidad cuadrática
Atención dispersa y aproximaciones lineales
FlashAttention y optimización de memoria
Síntesis: seleccionando la arquitectura eficiente adecuada

Módulo 9 Semanas 35-39

Transformers multimodales

Vision Transformer y parcheo de imágenes
Modelos contrastivos texto-imagen
Atención cruzada multimodal
Síntesis: CNN vs. Transformers en visión

Módulo 10 Semanas 40-43

Adaptación eficiente y alineación de modelos

Fine-tuning eficiente en parámetros
Aprendizaje en contexto e instruction tuning
RLHF y alineación con preferencias humanas
Síntesis: elegir la estrategia de adaptación

Módulo 11 Semanas 44-47

Evaluación crítica, sesgos y despliegue responsable

Benchmarks y sus limitaciones metodológicas
Sesgos, toxicidad y alucinaciones
Cuantización y destilación para producción
Síntesis: marco de despliegue responsable

Módulo 12 Semanas 48-52

Fronteras de investigación y proyecto final

Lectura crítica de literatura de vanguardia
Diseño experimental y reproducibilidad
Desarrollo del proyecto original
Síntesis: presentación y defensa del proyecto

Estudia este curso en Morita Learn

Regístrate gratis en moritalearn.com para comprar este curso con créditos o generar el tuyo propio sobre cualquier tema.