Почему разметка частей речи не является тривиальной задачей?

Многие слова неоднозначны — «book» может быть существительным или глаголом — поэтому правильный тег зависит от контекста. Модели последовательностей решают эту проблему, совместно рассматривая окружающие слова и теги.

Разметка частей речи и разметка последовательностей

Присвоение метки каждому токену в предложении — его части речи, типу именованной сущности или тегу фрагмента — с использованием вероятностных моделей последовательностей, таких как скрытые марковские модели и условные случайные поля.

Найти тему в PaperMindСкороFind papers & topics

Tools & resources

Скачать слайды

Learn & explore

ВидеоСкоро

Definition

Разметка последовательностей — это задача присвоения категориальной метки каждому элементу входной последовательности, при этом разметка частей речи является её каноническим примером.

Scope

Охватывает задачи разметки последовательностей, центральные для поверхностного анализа: разметку частей речи, распознавание именованных сущностей и сегментацию. Включает стандартные модели — скрытые марковские модели, марковские модели максимальной энтропии, условные случайные поля и нейронные разметчики последовательностей — а также наборы тегов, такие как Penn Treebank и Universal POS. Полный синтаксический анализ рассматривается в смежных темах.

Core questions

Как скрытые марковские модели присваивают наиболее вероятную последовательность тегов?
Почему условные случайные поля превосходят локально нормализованные модели?
Как разрабатываются и стандартизируются наборы тегов для разных языков?
Как разметка последовательностей поддерживает последующий синтаксический анализ и извлечение информации?

Key concepts

тег части речи
скрытая марковская модель
алгоритм Витерби
условное случайное поле
распознавание именованных сущностей
сегментация
набор тегов
BIO-кодирование

Key theories

Разметка с использованием скрытых марковских моделей: Моделирование последовательности тегов как цепи Маркова, генерирующей наблюдаемые слова, с эффективным восстановлением наиболее вероятной последовательности тегов с помощью алгоритма Витерби.
Условные случайные поля: Глобально нормализованные дискриминативные модели для разметки последовательностей, которые обусловливаются всем входом и избегают смещения метки, присущего локально нормализованным моделям.

History

Разметка частей речи (POS tagging) стала ранним успехом статистической обработки естественного языка (NLP) после того, как Penn Treebank (1993) предоставил большие аннотированные данные. Разметчики на основе скрытых марковских моделей уступили место дискриминативным моделям максимальной энтропии и условных случайных полей примерно в 2001 году, которые, в свою очередь, были поглощены нейронными разметчиками последовательностей в 2010-х годах.

Debates

Генеративные против дискриминативных моделей последовательностей: Моделировать ли совместное распределение слов и тегов (HMM) или обусловливать метки непосредственно на входе (CRF); дискриминативные модели обычно выигрывают в точности, когда доступны богатые признаки.

Key figures

Mitchell Marcus
John Lafferty
Andrew McCallum
Fernando Pereira

Seminal works

marcus1993
lafferty2001

Frequently asked questions

Почему разметка частей речи не является тривиальной задачей?: Многие слова неоднозначны — «book» может быть существительным или глаголом — поэтому правильный тег зависит от контекста. Модели последовательностей решают эту проблему, совместно рассматривая окружающие слова и теги.