ScholarGate
Ассистент

Нейронные языковые модели и векторные представления слов

Изучение плотных векторных представлений слов и контекстов из необработанного текста — от векторных представлений word2vec до контекстных представлений, таких как BERT, — которые кодируют значение как геометрию.

Найти тему в PaperMindСкороFind papers & topics
Tools & resources
Скачать слайды
Learn & explore
ВидеоСкоро

Definition

Векторное представление слова — это плотный вещественнозначный вектор, представляющий значение слова, обученный таким образом, что дистрибутивное сходство отражается в близости векторного пространства; контекстные векторные представления расширяют это до представлений, которые зависят от окружающего текста.

Scope

Охватывает распределенные и нейронные представления языка: дистрибутивную гипотезу, статические векторные представления слов, такие как word2vec и GloVe, нейронные языковые модели и контекстные векторные представления из предварительно обученных трансформеров, таких как BERT. Рассматривается, как представления обучаются, оцениваются и переносятся на последующие задачи. Детали архитектуры трансформеров и генерация рассматриваются в родственной теме.

Core questions

  • Что такое дистрибутивная гипотеза и как векторные представления ее операционализируют?
  • Как word2vec изучает векторы слов из совместной встречаемости?
  • Чем контекстные векторные представления отличаются от статических?
  • Почему предварительное обучение и трансферное обучение изменили НЛП?

Key concepts

  • дистрибутивная гипотеза
  • векторное представление слова
  • word2vec
  • skip-gram
  • контекстное векторное представление
  • предварительное обучение и тонкая настройка
  • трансферное обучение
  • маскированное языковое моделирование

Key theories

Дистрибутивная гипотеза
Идея о том, что слова, встречающиеся в схожих контекстах, имеют схожие значения, что лежит в основе всех методов векторных представлений, выводя значение из статистики совместной встречаемости.
Контекстное предварительное обучение
Предварительное обучение глубоких двунаправленных моделей на больших неразмеченных текстах, как в BERT, для получения контекстно-зависимых представлений, которые переносятся на многие последующие задачи с небольшой тонкой настройкой.

History

Дистрибутивная гипотеза Харриса была операционализирована сначала моделями векторного пространства, основанными на подсчете, затем нейронной языковой моделью Бенджио (2003) и эффективной моделью word2vec Миколова (2013). Появление в 2018–2019 годах контекстных моделей, таких как ELMo и BERT, сделало предварительное обучение и тонкую настройку доминирующей парадигмой.

Debates

Что на самом деле кодируют векторные представления?
Захватывают ли обученные представления подлинную семантическую и синтаксическую структуру или лишь закономерности совместной встречаемости и смещения, присутствующие в обучающих данных, — центральный вопрос для интерпретируемости.

Key figures

  • Yoshua Bengio
  • Tomas Mikolov
  • Jacob Devlin
  • Zellig Harris

Related topics

Seminal works

  • bengio2003
  • mikolov2013
  • devlin2019

Frequently asked questions

В чем разница между статическими и контекстными векторными представлениями?
Статическое векторное представление присваивает слову один фиксированный вектор независимо от контекста, поэтому слово 'банк' имеет одно представление. Контекстное векторное представление создает различный вектор для каждого вхождения, различая берег реки и финансовый банк.

Methods for this concept

Related concepts