¿Qué problema resuelve la atención?

Los modelos codificador-decodificador anteriores comprimían una entrada completa en un único vector fijo, lo que provocaba la pérdida de información para secuencias largas. La atención permite que el decodificador revise todos los estados del codificador y pondere los más relevantes en cada paso de salida.

Modelos de secuencia a secuencia y transformadores

Arquitecturas neuronales que mapean una secuencia de entrada a una secuencia de salida — codificadores-decodificadores recurrentes, atención y el transformador — que sustentan la traducción, la elaboración de resúmenes y los modelos de lenguaje generativos modernos.

Encontrar tema con PaperMindPróximamenteFind papers & topics

Tools & resources

Descargar diapositivas

Learn & explore

VídeoPróximamente

Definition

Un modelo de secuencia a secuencia es una red neuronal que codifica una secuencia de entrada y genera una secuencia de salida, típicamente utilizando un mecanismo de atención para alinear ambas.

Scope

Cubre las arquitecturas neuronales de modelado de secuencias centrales para el PNL actual: redes recurrentes, incluyendo LSTMs, el marco codificador-decodificador, mecanismos de atención y el transformador. Aborda cómo se entrenan y decodifican estos modelos y por qué la autoatención del transformador permitió la escalabilidad a grandes modelos de lenguaje. Las incrustaciones y aplicaciones específicas se cubren en temas relacionados.

Core questions

¿Cómo transforma el marco codificador-decodificador una secuencia en otra?
¿Por qué la atención superó el cuello de botella de las codificaciones de tamaño fijo?
¿Qué calcula la autoatención y por qué el transformador es tan escalable?
¿Cómo se entrenan y utilizan las LSTMs y los transformadores para la generación?

Key concepts

red neuronal recurrente
LSTM
codificador-decodificador
mecanismo de atención
autoatención
transformador
codificación posicional
decodificación

Key theories

Memoria a largo y corto plazo: Una arquitectura recurrente con celdas de memoria controladas que mitiga el problema del gradiente desvanecido, permitiendo el aprendizaje de dependencias de largo alcance en secuencias.
Codificador-decodificador con atención: Mapea una secuencia de entrada a una de salida a través de un codificador y un decodificador, con la atención permitiendo que el decodificador se enfoque en las posiciones de entrada relevantes en cada paso.
Transformador de autoatención: Reemplaza la recurrencia con autoatención para que cada token atienda directamente a todos los demás, lo que permite el entrenamiento en paralelo y la escalabilidad detrás de los grandes modelos de lenguaje.

History

Las LSTMs (1997) hicieron que las redes recurrentes fueran prácticas para secuencias largas. El aprendizaje de secuencia a secuencia con atención (2014-2015) transformó la traducción automática, y el transformador de 2017 reemplazó la recurrencia con autoatención, lo que permitió los grandes modelos generativos preentrenados que ahora dominan el campo.

Debates

Recurrencia versus atención: Si la recurrencia secuencial o la atención totalmente paralela es el mejor sesgo inductivo para el lenguaje; los transformadores ganaron en gran medida en escalabilidad, aunque las preocupaciones de eficiencia mantienen vivas las arquitecturas alternativas.

Key figures

Ashish Vaswani
Ilya Sutskever
Sepp Hochreiter
Jürgen Schmidhuber

Seminal works

hochreiter1997
sutskever2014
vaswani2017

Frequently asked questions

¿Qué problema resuelve la atención?: Los modelos codificador-decodificador anteriores comprimían una entrada completa en un único vector fijo, lo que provocaba la pérdida de información para secuencias largas. La atención permite que el decodificador revise todos los estados del codificador y pondere los más relevantes en cada paso de salida.