Какую проблему решает механизм внимания?

Более ранние модели кодера-декодера сжимали весь вход в один фиксированный вектор, что приводило к потере информации для длинных последовательностей. Механизм внимания позволяет декодеру обращаться ко всем состояниям кодера и взвешивать наиболее релевантные из них на каждом шаге вывода.

Модели «последовательность-последовательность» и трансформеры

Нейронные архитектуры, которые отображают входную последовательность в выходную последовательность — рекуррентные кодеры-декодеры, механизмы внимания и трансформеры — лежащие в основе перевода, суммаризации и современных генеративных языковых моделей.

Найти тему в PaperMindСкороFind papers & topics

Tools & resources

Скачать слайды

Learn & explore

ВидеоСкоро

Definition

Модель «последовательность-последовательность» — это нейронная сеть, которая кодирует входную последовательность и генерирует выходную последовательность, обычно используя механизм внимания для их выравнивания.

Scope

Охватывает нейронные архитектуры моделирования последовательностей, центральные для современного НЛП: рекуррентные сети, включая LSTM, структуру кодера-декодера, механизмы внимания и трансформер. Рассматривается, как эти модели обучаются и декодируются, и почему самовнимание трансформера позволило масштабировать их до больших языковых моделей. Встраивания (embeddings) и конкретные приложения рассматриваются в смежных темах.

Core questions

Как структура кодера-декодера преобразует одну последовательность в другую?
Почему механизм внимания преодолел проблему узкого места кодирования фиксированного размера?
Что вычисляет самовнимание и почему трансформер так хорошо масштабируется?
Как обучаются и используются LSTM и трансформеры для генерации?

Key concepts

рекуррентная нейронная сеть
LSTM
кодер-декодер
механизм внимания
самовнимание
трансформер
позиционное кодирование
декодирование

Key theories

Долгая краткосрочная память (Long short-term memory): Рекуррентная архитектура с ячейками памяти, управляемыми вентилями, которая смягчает проблему затухающего градиента, позволяя обучаться долгосрочным зависимостям в последовательностях.
Кодер-декодер с вниманием: Отображение входной последовательности в выходную с помощью кодера и декодера, при этом механизм внимания позволяет декодеру фокусироваться на соответствующих входных позициях на каждом шаге.
Трансформер с самовниманием: Замена рекуррентности самовниманием, так что каждый токен напрямую обращается к каждому другому, что обеспечивает параллельное обучение и масштабирование, лежащее в основе больших языковых моделей.

History

LSTM (1997) сделали рекуррентные сети практически применимыми для длинных последовательностей. Обучение «последовательность-последовательность» с вниманием (2014–2015) преобразило машинный перевод, а трансформер 2017 года заменил рекуррентность самовниманием, что позволило создать большие предварительно обученные генеративные модели, которые теперь доминируют в этой области.

Debates

Рекуррентность против внимания: Является ли последовательная рекуррентность или полностью параллельное внимание лучшим индуктивным смещением для языка; трансформеры в значительной степени выиграли в масштабируемости, хотя проблемы эффективности поддерживают существование альтернативных архитектур.

Key figures

Ashish Vaswani
Ilya Sutskever
Sepp Hochreiter
Jürgen Schmidhuber

Seminal works

hochreiter1997
sutskever2014
vaswani2017

Frequently asked questions

Какую проблему решает механизм внимания?: Более ранние модели кодера-декодера сжимали весь вход в один фиксированный вектор, что приводило к потере информации для длинных последовательностей. Механизм внимания позволяет декодеру обращаться ко всем состояниям кодера и взвешивать наиболее релевантные из них на каждом шаге вывода.