Нейронные языковые модели и векторные представления слов
Изучение плотных векторных представлений слов и контекстов из необработанного текста — от векторных представлений word2vec до контекстных представлений, таких как BERT, — которые кодируют значение как геометрию.
Definition
Векторное представление слова — это плотный вещественнозначный вектор, представляющий значение слова, обученный таким образом, что дистрибутивное сходство отражается в близости векторного пространства; контекстные векторные представления расширяют это до представлений, которые зависят от окружающего текста.
Scope
Охватывает распределенные и нейронные представления языка: дистрибутивную гипотезу, статические векторные представления слов, такие как word2vec и GloVe, нейронные языковые модели и контекстные векторные представления из предварительно обученных трансформеров, таких как BERT. Рассматривается, как представления обучаются, оцениваются и переносятся на последующие задачи. Детали архитектуры трансформеров и генерация рассматриваются в родственной теме.
Core questions
- Что такое дистрибутивная гипотеза и как векторные представления ее операционализируют?
- Как word2vec изучает векторы слов из совместной встречаемости?
- Чем контекстные векторные представления отличаются от статических?
- Почему предварительное обучение и трансферное обучение изменили НЛП?
Key concepts
- дистрибутивная гипотеза
- векторное представление слова
- word2vec
- skip-gram
- контекстное векторное представление
- предварительное обучение и тонкая настройка
- трансферное обучение
- маскированное языковое моделирование
Key theories
- Дистрибутивная гипотеза
- Идея о том, что слова, встречающиеся в схожих контекстах, имеют схожие значения, что лежит в основе всех методов векторных представлений, выводя значение из статистики совместной встречаемости.
- Контекстное предварительное обучение
- Предварительное обучение глубоких двунаправленных моделей на больших неразмеченных текстах, как в BERT, для получения контекстно-зависимых представлений, которые переносятся на многие последующие задачи с небольшой тонкой настройкой.
History
Дистрибутивная гипотеза Харриса была операционализирована сначала моделями векторного пространства, основанными на подсчете, затем нейронной языковой моделью Бенджио (2003) и эффективной моделью word2vec Миколова (2013). Появление в 2018–2019 годах контекстных моделей, таких как ELMo и BERT, сделало предварительное обучение и тонкую настройку доминирующей парадигмой.
Debates
- Что на самом деле кодируют векторные представления?
- Захватывают ли обученные представления подлинную семантическую и синтаксическую структуру или лишь закономерности совместной встречаемости и смещения, присутствующие в обучающих данных, — центральный вопрос для интерпретируемости.
Key figures
- Yoshua Bengio
- Tomas Mikolov
- Jacob Devlin
- Zellig Harris
Related topics
Seminal works
- bengio2003
- mikolov2013
- devlin2019
Frequently asked questions
- В чем разница между статическими и контекстными векторными представлениями?
- Статическое векторное представление присваивает слову один фиксированный вектор независимо от контекста, поэтому слово 'банк' имеет одно представление. Контекстное векторное представление создает различный вектор для каждого вхождения, различая берег реки и финансовый банк.