ScholarGate
Ассистент

Разметка частей речи и разметка последовательностей

Присвоение метки каждому токену в предложении — его части речи, типу именованной сущности или тегу фрагмента — с использованием вероятностных моделей последовательностей, таких как скрытые марковские модели и условные случайные поля.

Найти тему в PaperMindСкороFind papers & topics
Tools & resources
Скачать слайды
Learn & explore
ВидеоСкоро

Definition

Разметка последовательностей — это задача присвоения категориальной метки каждому элементу входной последовательности, при этом разметка частей речи является её каноническим примером.

Scope

Охватывает задачи разметки последовательностей, центральные для поверхностного анализа: разметку частей речи, распознавание именованных сущностей и сегментацию. Включает стандартные модели — скрытые марковские модели, марковские модели максимальной энтропии, условные случайные поля и нейронные разметчики последовательностей — а также наборы тегов, такие как Penn Treebank и Universal POS. Полный синтаксический анализ рассматривается в смежных темах.

Core questions

  • Как скрытые марковские модели присваивают наиболее вероятную последовательность тегов?
  • Почему условные случайные поля превосходят локально нормализованные модели?
  • Как разрабатываются и стандартизируются наборы тегов для разных языков?
  • Как разметка последовательностей поддерживает последующий синтаксический анализ и извлечение информации?

Key concepts

  • тег части речи
  • скрытая марковская модель
  • алгоритм Витерби
  • условное случайное поле
  • распознавание именованных сущностей
  • сегментация
  • набор тегов
  • BIO-кодирование

Key theories

Разметка с использованием скрытых марковских моделей
Моделирование последовательности тегов как цепи Маркова, генерирующей наблюдаемые слова, с эффективным восстановлением наиболее вероятной последовательности тегов с помощью алгоритма Витерби.
Условные случайные поля
Глобально нормализованные дискриминативные модели для разметки последовательностей, которые обусловливаются всем входом и избегают смещения метки, присущего локально нормализованным моделям.

History

Разметка частей речи (POS tagging) стала ранним успехом статистической обработки естественного языка (NLP) после того, как Penn Treebank (1993) предоставил большие аннотированные данные. Разметчики на основе скрытых марковских моделей уступили место дискриминативным моделям максимальной энтропии и условных случайных полей примерно в 2001 году, которые, в свою очередь, были поглощены нейронными разметчиками последовательностей в 2010-х годах.

Debates

Генеративные против дискриминативных моделей последовательностей
Моделировать ли совместное распределение слов и тегов (HMM) или обусловливать метки непосредственно на входе (CRF); дискриминативные модели обычно выигрывают в точности, когда доступны богатые признаки.

Key figures

  • Mitchell Marcus
  • John Lafferty
  • Andrew McCallum
  • Fernando Pereira

Related topics

Seminal works

  • marcus1993
  • lafferty2001

Frequently asked questions

Почему разметка частей речи не является тривиальной задачей?
Многие слова неоднозначны — «book» может быть существительным или глаголом — поэтому правильный тег зависит от контекста. Модели последовательностей решают эту проблему, совместно рассматривая окружающие слова и теги.

Methods for this concept

Related concepts