ScholarGate
Asistente
Machine learning

Autoatención Multi-cabeza

La autoatención multi-cabeza, introducida por Vaswani y colegas en 2017, es el mecanismo que permite a cada posición en una secuencia computar su relación con todas las demás posiciones en paralelo. Es el núcleo de la arquitectura Transformer y la base de BERT, GPT y T5.

Abrir en MethodMindPróximamenteVídeoPróximamenteDescargar diapositivas

Leer el método completo

Solo para miembros

Inicia sesión con una cuenta gratuita para leer esta sección.

Iniciar sesión

Mapa de métodos

El vecindario de métodos relacionados: selecciona un nodo para explorarlo.

Fuentes

  1. Vaswani, A. et al. (2017). Attention Is All You Need. NeurIPS. link
  2. Devlin, J. et al. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. NAACL. link

Cómo citar esta página

ScholarGate. (2026, June 1). Multi-Head Self-Attention (Transformer Core). ScholarGate. https://scholargate.app/es/deep-learning/self-attention-transformer

¿Qué método?

Coloca este método junto a sus parientes más cercanos y léelos lado a lado: la biblioteca pone los libros sobre la mesa; la elección es tuya.

Comparar lado a lado

Citado por

ScholarGateSelf-Attention (Multi-Head Self-Attention (Transformer Core)). Recuperado el 2026-06-15 de https://scholargate.app/es/deep-learning/self-attention-transformer · Conjunto de datos: https://doi.org/10.5281/zenodo.20539026