Modelos de secuencia a secuencia y transformadores
Arquitecturas neuronales que mapean una secuencia de entrada a una secuencia de salida — codificadores-decodificadores recurrentes, atención y el transformador — que sustentan la traducción, la elaboración de resúmenes y los modelos de lenguaje generativos modernos.
Definition
Un modelo de secuencia a secuencia es una red neuronal que codifica una secuencia de entrada y genera una secuencia de salida, típicamente utilizando un mecanismo de atención para alinear ambas.
Scope
Cubre las arquitecturas neuronales de modelado de secuencias centrales para el PNL actual: redes recurrentes, incluyendo LSTMs, el marco codificador-decodificador, mecanismos de atención y el transformador. Aborda cómo se entrenan y decodifican estos modelos y por qué la autoatención del transformador permitió la escalabilidad a grandes modelos de lenguaje. Las incrustaciones y aplicaciones específicas se cubren en temas relacionados.
Core questions
- ¿Cómo transforma el marco codificador-decodificador una secuencia en otra?
- ¿Por qué la atención superó el cuello de botella de las codificaciones de tamaño fijo?
- ¿Qué calcula la autoatención y por qué el transformador es tan escalable?
- ¿Cómo se entrenan y utilizan las LSTMs y los transformadores para la generación?
Key concepts
- red neuronal recurrente
- LSTM
- codificador-decodificador
- mecanismo de atención
- autoatención
- transformador
- codificación posicional
- decodificación
Key theories
- Memoria a largo y corto plazo
- Una arquitectura recurrente con celdas de memoria controladas que mitiga el problema del gradiente desvanecido, permitiendo el aprendizaje de dependencias de largo alcance en secuencias.
- Codificador-decodificador con atención
- Mapea una secuencia de entrada a una de salida a través de un codificador y un decodificador, con la atención permitiendo que el decodificador se enfoque en las posiciones de entrada relevantes en cada paso.
- Transformador de autoatención
- Reemplaza la recurrencia con autoatención para que cada token atienda directamente a todos los demás, lo que permite el entrenamiento en paralelo y la escalabilidad detrás de los grandes modelos de lenguaje.
History
Las LSTMs (1997) hicieron que las redes recurrentes fueran prácticas para secuencias largas. El aprendizaje de secuencia a secuencia con atención (2014-2015) transformó la traducción automática, y el transformador de 2017 reemplazó la recurrencia con autoatención, lo que permitió los grandes modelos generativos preentrenados que ahora dominan el campo.
Debates
- Recurrencia versus atención
- Si la recurrencia secuencial o la atención totalmente paralela es el mejor sesgo inductivo para el lenguaje; los transformadores ganaron en gran medida en escalabilidad, aunque las preocupaciones de eficiencia mantienen vivas las arquitecturas alternativas.
Key figures
- Ashish Vaswani
- Ilya Sutskever
- Sepp Hochreiter
- Jürgen Schmidhuber
Related topics
Seminal works
- hochreiter1997
- sutskever2014
- vaswani2017
Frequently asked questions
- ¿Qué problema resuelve la atención?
- Los modelos codificador-decodificador anteriores comprimían una entrada completa en un único vector fijo, lo que provocaba la pérdida de información para secuencias largas. La atención permite que el decodificador revise todos los estados del codificador y pondere los más relevantes en cada paso de salida.