Morita Learn

← Todos los cursos

Transformers y mecanismos de atención

Curso generado con IA · 12 módulos · publicado por Julian Hernandez · 200 créditos

Curso universitario avanzado de Deep Learning centrado en la arquitectura Transformer y los mecanismos de atención, base tecnológica de los modelos de lenguaje y visión contemporáneos. Situado a nivel de posgrado (maestría) o últimos años de grado en Ciencia de la Computación e Inteligencia Artificial, integra fundamentos matemáticos, implementación práctica en PyTorch y análisis crítico de arquitecturas de estado del arte. Al finalizar, el estudiante será capaz de diseñar, entrenar, evaluar y adaptar arquitecturas basadas en atención para tareas de procesamiento de lenguaje natural, visión y modelado multimodal. El egresado dominará tanto la teoría de la autoatención como las técnicas de escalado, fine-tuning eficiente y despliegue responsable de modelos fundacionales.

Duración: 52 semanas — 2 semestres de 26 semanas cada uno

Prerrequisitos

Contenido del curso

Módulo 1 Semanas 1-4

Modelado de secuencias y el camino hacia la atención

  • Representación de secuencias y embeddings
  • Redes recurrentes y el gradiente evanescente
  • Métricas de evaluación en modelado de lenguaje
  • Síntesis: por qué necesitamos atención
Módulo 2 Semanas 5-8

El mecanismo de atención: fundamentos

  • Atención como recuperación suave: query, key y value
  • Atención de producto escalar escalado
  • Variantes históricas: Bahdanau vs. Luong
  • Síntesis: la geometría de la atención
Módulo 3 Semanas 9-13

La arquitectura Transformer completa

  • Autoatención y atención multicabeza
  • Codificación posicional
  • Residuales, normalización y feed-forward
  • Síntesis: recorriendo el flujo encoder-decoder
Módulo 4 Semanas 14-17

Implementación y entrenamiento de Transformers

  • Construcción del Transformer en PyTorch
  • Estrategias de optimización y scheduling
  • Regularización y diagnóstico de entrenamiento
  • Síntesis: entrenando un modelo end-to-end
Módulo 5 Semanas 18-21

Modelos preentrenados: BERT, GPT y el paradigma fundacional

  • Preentrenamiento auto-supervisado
  • Tokenización subpalabra
  • Fine-tuning para tareas de NLP
  • Síntesis: comparando familias arquitectónicas
Módulo 6 Semanas 22-26

Interpretabilidad y análisis de patrones de atención

  • Visualización de mapas de atención
  • Análisis de cabezas especializadas
  • Probing de representaciones internas
  • Síntesis: qué aprenden realmente los Transformers
Módulo 7 Semanas 27-30

Escalado de modelos y leyes de escala

  • Leyes de escala: Kaplan y Chinchilla
  • Paralelismo de datos, modelo y pipeline
  • Precisión mixta y eficiencia de memoria
  • Síntesis: presupuesto óptimo de cómputo
Módulo 8 Semanas 31-34

Atención eficiente y arquitecturas de contexto largo

  • El problema de la complejidad cuadrática
  • Atención dispersa y aproximaciones lineales
  • FlashAttention y optimización de memoria
  • Síntesis: seleccionando la arquitectura eficiente adecuada
Módulo 9 Semanas 35-39

Transformers multimodales

  • Vision Transformer y parcheo de imágenes
  • Modelos contrastivos texto-imagen
  • Atención cruzada multimodal
  • Síntesis: CNN vs. Transformers en visión
Módulo 10 Semanas 40-43

Adaptación eficiente y alineación de modelos

  • Fine-tuning eficiente en parámetros
  • Aprendizaje en contexto e instruction tuning
  • RLHF y alineación con preferencias humanas
  • Síntesis: elegir la estrategia de adaptación
Módulo 11 Semanas 44-47

Evaluación crítica, sesgos y despliegue responsable

  • Benchmarks y sus limitaciones metodológicas
  • Sesgos, toxicidad y alucinaciones
  • Cuantización y destilación para producción
  • Síntesis: marco de despliegue responsable
Módulo 12 Semanas 48-52

Fronteras de investigación y proyecto final

  • Lectura crítica de literatura de vanguardia
  • Diseño experimental y reproducibilidad
  • Desarrollo del proyecto original
  • Síntesis: presentación y defensa del proyecto
Estudia este curso en Morita Learn

Regístrate gratis en moritalearn.com para comprar este curso con créditos o generar el tuyo propio sobre cualquier tema.