Разметка частей речи и разметка последовательностей
Присвоение метки каждому токену в предложении — его части речи, типу именованной сущности или тегу фрагмента — с использованием вероятностных моделей последовательностей, таких как скрытые марковские модели и условные случайные поля.
Definition
Разметка последовательностей — это задача присвоения категориальной метки каждому элементу входной последовательности, при этом разметка частей речи является её каноническим примером.
Scope
Охватывает задачи разметки последовательностей, центральные для поверхностного анализа: разметку частей речи, распознавание именованных сущностей и сегментацию. Включает стандартные модели — скрытые марковские модели, марковские модели максимальной энтропии, условные случайные поля и нейронные разметчики последовательностей — а также наборы тегов, такие как Penn Treebank и Universal POS. Полный синтаксический анализ рассматривается в смежных темах.
Core questions
- Как скрытые марковские модели присваивают наиболее вероятную последовательность тегов?
- Почему условные случайные поля превосходят локально нормализованные модели?
- Как разрабатываются и стандартизируются наборы тегов для разных языков?
- Как разметка последовательностей поддерживает последующий синтаксический анализ и извлечение информации?
Key concepts
- тег части речи
- скрытая марковская модель
- алгоритм Витерби
- условное случайное поле
- распознавание именованных сущностей
- сегментация
- набор тегов
- BIO-кодирование
Key theories
- Разметка с использованием скрытых марковских моделей
- Моделирование последовательности тегов как цепи Маркова, генерирующей наблюдаемые слова, с эффективным восстановлением наиболее вероятной последовательности тегов с помощью алгоритма Витерби.
- Условные случайные поля
- Глобально нормализованные дискриминативные модели для разметки последовательностей, которые обусловливаются всем входом и избегают смещения метки, присущего локально нормализованным моделям.
History
Разметка частей речи (POS tagging) стала ранним успехом статистической обработки естественного языка (NLP) после того, как Penn Treebank (1993) предоставил большие аннотированные данные. Разметчики на основе скрытых марковских моделей уступили место дискриминативным моделям максимальной энтропии и условных случайных полей примерно в 2001 году, которые, в свою очередь, были поглощены нейронными разметчиками последовательностей в 2010-х годах.
Debates
- Генеративные против дискриминативных моделей последовательностей
- Моделировать ли совместное распределение слов и тегов (HMM) или обусловливать метки непосредственно на входе (CRF); дискриминативные модели обычно выигрывают в точности, когда доступны богатые признаки.
Key figures
- Mitchell Marcus
- John Lafferty
- Andrew McCallum
- Fernando Pereira
Related topics
Seminal works
- marcus1993
- lafferty2001
Frequently asked questions
- Почему разметка частей речи не является тривиальной задачей?
- Многие слова неоднозначны — «book» может быть существительным или глаголом — поэтому правильный тег зависит от контекста. Модели последовательностей решают эту проблему, совместно рассматривая окружающие слова и теги.