ScholarGate
Ассистент

Извлечение информации

Извлечение информации — это задача автоматического выявления структурированной информации (сущностей, отношений и событий) в неструктурированном тексте на естественном языке.

Найти тему в PaperMindСкороFind papers & topics
Tools & resources
Скачать слайды
Learn & explore
ВидеоСкоро

Definition

Извлечение информации преобразует неструктурированный текст в структурированные представления путем обнаружения и классификации упоминаний сущностей, отношений между ними и событий, в которых они участвуют, часто для заполнения базы данных или базы знаний.

Scope

Эта тема охватывает извлечение структурированных фактов из текста: распознавание именованных сущностей, извлечение отношений, извлечение событий, разрешение кореференции и заполнение шаблонов или баз знаний. Рассматриваются подходы, основанные на правилах, статистическом маркировании последовательностей, а также контролируемые и дистантные контролируемые подходы, а также оценка извлечения по точности и полноте. Общие методы машинного обучения, используемые для обучения экстракторов, относятся к подобласти машинного обучения; здесь акцент делается на задачах извлечения и их лингвистических проблемах.

Core questions

  • Как обнаруживаются и классифицируются в тексте упоминания таких сущностей, как люди, организации и местоположения?
  • Как выявляются и извлекаются отношения между сущностями?
  • Как распознаются события и их участники, и как разрешается кореференция?
  • Как оценивается производительность извлечения, и какие компромиссы возникают между точностью и полнотой?

Key concepts

  • распознавание именованных сущностей
  • извлечение отношений
  • извлечение событий
  • разрешение кореференции
  • BIO-разметка последовательностей
  • заполнение шаблонов
  • наполнение баз знаний
  • точность и полнота

Key theories

Распознавание именованных сущностей как разметка последовательностей
Идентификация упоминаний сущностей обычно формулируется как маркировка каждого токена тегом (например, с использованием схемы BIO), решаемая моделями последовательностей, которые используют контекст для обозначения диапазонов и их типов.
Извлечение отношений и событий
Помимо сущностей, извлечение информации определяет, как сущности связаны и какие события происходят, заполняя структурированные шаблоны; эта задача-ориентированная формулировка была кристаллизована на конференциях Message Understanding Conferences.
Наполнение баз знаний
Извлеченные сущности и отношения могут быть агрегированы для построения или расширения базы знаний, связывая упоминания с каноническими сущностями и накапливая факты из больших текстовых коллекций.

Clinical relevance

Извлечение информации превращает текст в данные, пригодные для запросов, для таких приложений, как анализ биомедицинской литературы, финансовая и новостная аналитика, построение графов знаний и заполнение баз данных из документов, делая большие объемы неструктурированного текста пригодными для использования последующими системами.

History

Извлечение информации формировалось на конференциях Message Understanding Conferences (MUC) в конце 1980-х и 1990-х годов, которые определили такие задачи, как распознавание именованных сущностей и заполнение шаблонов, и ввели стандартизированную оценку. Область перешла от правил, созданных вручную, к статистическим моделям последовательностей, а затем к нейронным методам, сохраняя при этом свою структуру задач.

Key figures

  • Ralph Grishman
  • Beth Sundheim
  • Christopher D. Manning
  • Daniel Jurafsky

Related topics

Seminal works

  • grishman1996
  • jurafsky2023

Frequently asked questions

Что такое распознавание именованных сущностей?
Распознавание именованных сущностей — это задача поиска и классификации фрагментов текста, которые называют реальные сущности, такие как люди, организации, местоположения и даты. Обычно это первый шаг в извлечении информации, поскольку многие отношения и события формулируются в терминах этих сущностей.
Как оценивается извлечение информации?
Извлечение обычно оценивается с помощью точности (какая доля извлеченных элементов является правильной) и полноты (какая доля правильных элементов была извлечена), часто объединяемых в F-меру. Это отражает компромисс между извлечением слишком малого количества и извлечением неверной информации.

Methods for this concept

Related concepts