В чем разница между статическими и контекстными векторными представлениями?

Статическое векторное представление присваивает слову один фиксированный вектор независимо от контекста, поэтому слово 'банк' имеет одно представление. Контекстное векторное представление создает различный вектор для каждого вхождения, различая берег реки и финансовый банк.

Нейронные языковые модели и векторные представления слов

Изучение плотных векторных представлений слов и контекстов из необработанного текста — от векторных представлений word2vec до контекстных представлений, таких как BERT, — которые кодируют значение как геометрию.

Найти тему в PaperMindСкороFind papers & topics

Tools & resources

Скачать слайды

Learn & explore

ВидеоСкоро

Definition

Векторное представление слова — это плотный вещественнозначный вектор, представляющий значение слова, обученный таким образом, что дистрибутивное сходство отражается в близости векторного пространства; контекстные векторные представления расширяют это до представлений, которые зависят от окружающего текста.

Scope

Охватывает распределенные и нейронные представления языка: дистрибутивную гипотезу, статические векторные представления слов, такие как word2vec и GloVe, нейронные языковые модели и контекстные векторные представления из предварительно обученных трансформеров, таких как BERT. Рассматривается, как представления обучаются, оцениваются и переносятся на последующие задачи. Детали архитектуры трансформеров и генерация рассматриваются в родственной теме.

Core questions

Что такое дистрибутивная гипотеза и как векторные представления ее операционализируют?
Как word2vec изучает векторы слов из совместной встречаемости?
Чем контекстные векторные представления отличаются от статических?
Почему предварительное обучение и трансферное обучение изменили НЛП?

Key concepts

дистрибутивная гипотеза
векторное представление слова
word2vec
skip-gram
контекстное векторное представление
предварительное обучение и тонкая настройка
трансферное обучение
маскированное языковое моделирование

Key theories

Дистрибутивная гипотеза: Идея о том, что слова, встречающиеся в схожих контекстах, имеют схожие значения, что лежит в основе всех методов векторных представлений, выводя значение из статистики совместной встречаемости.
Контекстное предварительное обучение: Предварительное обучение глубоких двунаправленных моделей на больших неразмеченных текстах, как в BERT, для получения контекстно-зависимых представлений, которые переносятся на многие последующие задачи с небольшой тонкой настройкой.

History

Дистрибутивная гипотеза Харриса была операционализирована сначала моделями векторного пространства, основанными на подсчете, затем нейронной языковой моделью Бенджио (2003) и эффективной моделью word2vec Миколова (2013). Появление в 2018–2019 годах контекстных моделей, таких как ELMo и BERT, сделало предварительное обучение и тонкую настройку доминирующей парадигмой.

Debates

Что на самом деле кодируют векторные представления?: Захватывают ли обученные представления подлинную семантическую и синтаксическую структуру или лишь закономерности совместной встречаемости и смещения, присутствующие в обучающих данных, — центральный вопрос для интерпретируемости.

Key figures

Yoshua Bengio
Tomas Mikolov
Jacob Devlin
Zellig Harris

Seminal works

bengio2003
mikolov2013
devlin2019

Frequently asked questions

В чем разница между статическими и контекстными векторными представлениями?: Статическое векторное представление присваивает слову один фиксированный вектор независимо от контекста, поэтому слово 'банк' имеет одно представление. Контекстное векторное представление создает различный вектор для каждого вхождения, различая берег реки и финансовый банк.