ScholarGate
Ассистент

Модели «последовательность-последовательность» и трансформеры

Нейронные архитектуры, которые отображают входную последовательность в выходную последовательность — рекуррентные кодеры-декодеры, механизмы внимания и трансформеры — лежащие в основе перевода, суммаризации и современных генеративных языковых моделей.

Найти тему в PaperMindСкороFind papers & topics
Tools & resources
Скачать слайды
Learn & explore
ВидеоСкоро

Definition

Модель «последовательность-последовательность» — это нейронная сеть, которая кодирует входную последовательность и генерирует выходную последовательность, обычно используя механизм внимания для их выравнивания.

Scope

Охватывает нейронные архитектуры моделирования последовательностей, центральные для современного НЛП: рекуррентные сети, включая LSTM, структуру кодера-декодера, механизмы внимания и трансформер. Рассматривается, как эти модели обучаются и декодируются, и почему самовнимание трансформера позволило масштабировать их до больших языковых моделей. Встраивания (embeddings) и конкретные приложения рассматриваются в смежных темах.

Core questions

  • Как структура кодера-декодера преобразует одну последовательность в другую?
  • Почему механизм внимания преодолел проблему узкого места кодирования фиксированного размера?
  • Что вычисляет самовнимание и почему трансформер так хорошо масштабируется?
  • Как обучаются и используются LSTM и трансформеры для генерации?

Key concepts

  • рекуррентная нейронная сеть
  • LSTM
  • кодер-декодер
  • механизм внимания
  • самовнимание
  • трансформер
  • позиционное кодирование
  • декодирование

Key theories

Долгая краткосрочная память (Long short-term memory)
Рекуррентная архитектура с ячейками памяти, управляемыми вентилями, которая смягчает проблему затухающего градиента, позволяя обучаться долгосрочным зависимостям в последовательностях.
Кодер-декодер с вниманием
Отображение входной последовательности в выходную с помощью кодера и декодера, при этом механизм внимания позволяет декодеру фокусироваться на соответствующих входных позициях на каждом шаге.
Трансформер с самовниманием
Замена рекуррентности самовниманием, так что каждый токен напрямую обращается к каждому другому, что обеспечивает параллельное обучение и масштабирование, лежащее в основе больших языковых моделей.

History

LSTM (1997) сделали рекуррентные сети практически применимыми для длинных последовательностей. Обучение «последовательность-последовательность» с вниманием (2014–2015) преобразило машинный перевод, а трансформер 2017 года заменил рекуррентность самовниманием, что позволило создать большие предварительно обученные генеративные модели, которые теперь доминируют в этой области.

Debates

Рекуррентность против внимания
Является ли последовательная рекуррентность или полностью параллельное внимание лучшим индуктивным смещением для языка; трансформеры в значительной степени выиграли в масштабируемости, хотя проблемы эффективности поддерживают существование альтернативных архитектур.

Key figures

  • Ashish Vaswani
  • Ilya Sutskever
  • Sepp Hochreiter
  • Jürgen Schmidhuber

Related topics

Seminal works

  • hochreiter1997
  • sutskever2014
  • vaswani2017

Frequently asked questions

Какую проблему решает механизм внимания?
Более ранние модели кодера-декодера сжимали весь вход в один фиксированный вектор, что приводило к потере информации для длинных последовательностей. Механизм внимания позволяет декодеру обращаться ко всем состояниям кодера и взвешивать наиболее релевантные из них на каждом шаге вывода.

Methods for this concept

Related concepts