Модели «последовательность-последовательность» и трансформеры
Нейронные архитектуры, которые отображают входную последовательность в выходную последовательность — рекуррентные кодеры-декодеры, механизмы внимания и трансформеры — лежащие в основе перевода, суммаризации и современных генеративных языковых моделей.
Definition
Модель «последовательность-последовательность» — это нейронная сеть, которая кодирует входную последовательность и генерирует выходную последовательность, обычно используя механизм внимания для их выравнивания.
Scope
Охватывает нейронные архитектуры моделирования последовательностей, центральные для современного НЛП: рекуррентные сети, включая LSTM, структуру кодера-декодера, механизмы внимания и трансформер. Рассматривается, как эти модели обучаются и декодируются, и почему самовнимание трансформера позволило масштабировать их до больших языковых моделей. Встраивания (embeddings) и конкретные приложения рассматриваются в смежных темах.
Core questions
- Как структура кодера-декодера преобразует одну последовательность в другую?
- Почему механизм внимания преодолел проблему узкого места кодирования фиксированного размера?
- Что вычисляет самовнимание и почему трансформер так хорошо масштабируется?
- Как обучаются и используются LSTM и трансформеры для генерации?
Key concepts
- рекуррентная нейронная сеть
- LSTM
- кодер-декодер
- механизм внимания
- самовнимание
- трансформер
- позиционное кодирование
- декодирование
Key theories
- Долгая краткосрочная память (Long short-term memory)
- Рекуррентная архитектура с ячейками памяти, управляемыми вентилями, которая смягчает проблему затухающего градиента, позволяя обучаться долгосрочным зависимостям в последовательностях.
- Кодер-декодер с вниманием
- Отображение входной последовательности в выходную с помощью кодера и декодера, при этом механизм внимания позволяет декодеру фокусироваться на соответствующих входных позициях на каждом шаге.
- Трансформер с самовниманием
- Замена рекуррентности самовниманием, так что каждый токен напрямую обращается к каждому другому, что обеспечивает параллельное обучение и масштабирование, лежащее в основе больших языковых моделей.
History
LSTM (1997) сделали рекуррентные сети практически применимыми для длинных последовательностей. Обучение «последовательность-последовательность» с вниманием (2014–2015) преобразило машинный перевод, а трансформер 2017 года заменил рекуррентность самовниманием, что позволило создать большие предварительно обученные генеративные модели, которые теперь доминируют в этой области.
Debates
- Рекуррентность против внимания
- Является ли последовательная рекуррентность или полностью параллельное внимание лучшим индуктивным смещением для языка; трансформеры в значительной степени выиграли в масштабируемости, хотя проблемы эффективности поддерживают существование альтернативных архитектур.
Key figures
- Ashish Vaswani
- Ilya Sutskever
- Sepp Hochreiter
- Jürgen Schmidhuber
Related topics
Seminal works
- hochreiter1997
- sutskever2014
- vaswani2017
Frequently asked questions
- Какую проблему решает механизм внимания?
- Более ранние модели кодера-декодера сжимали весь вход в один фиксированный вектор, что приводило к потере информации для длинных последовательностей. Механизм внимания позволяет декодеру обращаться ко всем состояниям кодера и взвешивать наиболее релевантные из них на каждом шаге вывода.