Что такое распознавание именованных сущностей?

Распознавание именованных сущностей — это задача поиска и классификации фрагментов текста, которые называют реальные сущности, такие как люди, организации, местоположения и даты. Обычно это первый шаг в извлечении информации, поскольку многие отношения и события формулируются в терминах этих сущностей.

Как оценивается извлечение информации?

Извлечение обычно оценивается с помощью точности (какая доля извлеченных элементов является правильной) и полноты (какая доля правильных элементов была извлечена), часто объединяемых в F-меру. Это отражает компромисс между извлечением слишком малого количества и извлечением неверной информации.

Извлечение информации

Извлечение информации — это задача автоматического выявления структурированной информации (сущностей, отношений и событий) в неструктурированном тексте на естественном языке.

Найти тему в PaperMindСкороFind papers & topics

Tools & resources

Скачать слайды

Learn & explore

ВидеоСкоро

Definition

Извлечение информации преобразует неструктурированный текст в структурированные представления путем обнаружения и классификации упоминаний сущностей, отношений между ними и событий, в которых они участвуют, часто для заполнения базы данных или базы знаний.

Scope

Эта тема охватывает извлечение структурированных фактов из текста: распознавание именованных сущностей, извлечение отношений, извлечение событий, разрешение кореференции и заполнение шаблонов или баз знаний. Рассматриваются подходы, основанные на правилах, статистическом маркировании последовательностей, а также контролируемые и дистантные контролируемые подходы, а также оценка извлечения по точности и полноте. Общие методы машинного обучения, используемые для обучения экстракторов, относятся к подобласти машинного обучения; здесь акцент делается на задачах извлечения и их лингвистических проблемах.

Core questions

Как обнаруживаются и классифицируются в тексте упоминания таких сущностей, как люди, организации и местоположения?
Как выявляются и извлекаются отношения между сущностями?
Как распознаются события и их участники, и как разрешается кореференция?
Как оценивается производительность извлечения, и какие компромиссы возникают между точностью и полнотой?

Key concepts

распознавание именованных сущностей
извлечение отношений
извлечение событий
разрешение кореференции
BIO-разметка последовательностей
заполнение шаблонов
наполнение баз знаний
точность и полнота

Key theories

Распознавание именованных сущностей как разметка последовательностей: Идентификация упоминаний сущностей обычно формулируется как маркировка каждого токена тегом (например, с использованием схемы BIO), решаемая моделями последовательностей, которые используют контекст для обозначения диапазонов и их типов.
Извлечение отношений и событий: Помимо сущностей, извлечение информации определяет, как сущности связаны и какие события происходят, заполняя структурированные шаблоны; эта задача-ориентированная формулировка была кристаллизована на конференциях Message Understanding Conferences.
Наполнение баз знаний: Извлеченные сущности и отношения могут быть агрегированы для построения или расширения базы знаний, связывая упоминания с каноническими сущностями и накапливая факты из больших текстовых коллекций.

Clinical relevance

Извлечение информации превращает текст в данные, пригодные для запросов, для таких приложений, как анализ биомедицинской литературы, финансовая и новостная аналитика, построение графов знаний и заполнение баз данных из документов, делая большие объемы неструктурированного текста пригодными для использования последующими системами.

History

Извлечение информации формировалось на конференциях Message Understanding Conferences (MUC) в конце 1980-х и 1990-х годов, которые определили такие задачи, как распознавание именованных сущностей и заполнение шаблонов, и ввели стандартизированную оценку. Область перешла от правил, созданных вручную, к статистическим моделям последовательностей, а затем к нейронным методам, сохраняя при этом свою структуру задач.

Key figures

Ralph Grishman
Beth Sundheim
Christopher D. Manning
Daniel Jurafsky

Seminal works

grishman1996
jurafsky2023

Frequently asked questions

Что такое распознавание именованных сущностей?: Распознавание именованных сущностей — это задача поиска и классификации фрагментов текста, которые называют реальные сущности, такие как люди, организации, местоположения и даты. Обычно это первый шаг в извлечении информации, поскольку многие отношения и события формулируются в терминах этих сущностей.
Как оценивается извлечение информации?: Извлечение обычно оценивается с помощью точности (какая доля извлеченных элементов является правильной) и полноты (какая доля правильных элементов была извлечена), часто объединяемых в F-меру. Это отражает компромисс между извлечением слишком малого количества и извлечением неверной информации.