ScholarGate
어시스턴트

정보 추출

정보 추출은 비정형 자연어 텍스트 내에서 구조화된 정보(개체, 관계, 이벤트)를 자동으로 식별하는 작업입니다.

PaperMind(으)로 주제 찾기곧 제공Find papers & topics
Tools & resources
슬라이드 다운로드
Learn & explore
동영상곧 제공

Definition

정보 추출은 개체, 개체 간의 관계, 그리고 개체가 참여하는 이벤트에 대한 언급을 감지하고 분류함으로써 비정형 텍스트를 구조화된 표현으로 변환하며, 종종 데이터베이스나 지식 베이스를 채우는 데 사용됩니다.

Scope

이 주제는 텍스트에서 구조화된 사실을 추출하는 것, 즉 개체명 인식, 관계 추출, 이벤트 추출, 공참조 해결, 그리고 템플릿 또는 지식 베이스 채우기를 다룹니다. 또한 규칙 기반, 통계적 순서 레이블링, 지도 및 원격 지도 접근 방식, 그리고 정밀도와 재현율을 통한 추출 평가에 대해 다룹니다. 추출기 훈련에 사용되는 일반적인 기계 학습 방법은 기계 학습 하위 분야에 속하며, 여기서는 추출 작업과 그 언어학적 난제에 중점을 둡니다.

Core questions

  • 사람, 조직, 위치와 같은 개체에 대한 언급은 텍스트에서 어떻게 감지되고 분류됩니까?
  • 개체 간의 관계는 어떻게 식별되고 추출됩니까?
  • 이벤트와 그 참여자는 어떻게 인식되며, 공참조는 어떻게 해결됩니까?
  • 추출 성능은 어떻게 평가되며, 정밀도와 재현율 사이에는 어떤 절충이 발생합니까?

Key concepts

  • 개체명 인식
  • 관계 추출
  • 이벤트 추출
  • 공참조 해결
  • BIO 순서 레이블링
  • 템플릿 채우기
  • 지식 베이스 구축
  • 정밀도 및 재현율

Key theories

순서 레이블링으로서의 개체명 인식
개체 언급을 식별하는 것은 일반적으로 각 토큰에 태그를 지정하는 것(예: BIO 스키마 사용)으로 구성되며, 문맥을 활용하여 스팬과 그 유형을 표시하는 순서 모델에 의해 해결됩니다.
관계 및 이벤트 추출
정보 추출은 개체를 넘어 개체들이 어떻게 관련되어 있는지, 어떤 이벤트가 발생하는지를 식별하여 구조화된 템플릿을 채웁니다. 이러한 작업 중심의 틀은 메시지 이해 회의(Message Understanding Conferences)에 의해 구체화되었습니다.
지식 베이스 구축
추출된 개체와 관계는 집계되어 지식 베이스를 구축하거나 확장할 수 있으며, 언급을 정식 개체에 연결하고 대규모 텍스트 컬렉션에서 사실을 축적합니다.

Clinical relevance

정보 추출은 텍스트를 생물의학 문헌 마이닝, 금융 및 뉴스 분석, 지식 그래프 구축, 문서에서 데이터베이스 채우기와 같은 응용 프로그램에 질의 가능한 데이터로 변환하여 방대한 양의 비정형 텍스트를 다운스트림 시스템에서 활용할 수 있도록 합니다.

History

정보 추출은 1980년대 후반과 1990년대의 메시지 이해 회의(MUC)에 의해 형성되었으며, 이 회의에서 개체명 인식 및 템플릿 채우기와 같은 작업이 정의되고 표준화된 평가가 도입되었습니다. 이 분야는 수작업 규칙에서 통계적 순서 모델, 그리고 나중에는 신경망 방법으로 발전했지만, 작업 구조는 유지되었습니다.

Key figures

  • Ralph Grishman
  • Beth Sundheim
  • Christopher D. Manning
  • Daniel Jurafsky

Related topics

Seminal works

  • grishman1996
  • jurafsky2023

Frequently asked questions

개체명 인식(Named Entity Recognition)이란 무엇입니까?
개체명 인식은 사람, 조직, 위치, 날짜와 같은 실제 개체를 지칭하는 텍스트 스팬을 찾아 분류하는 작업입니다. 많은 관계와 이벤트가 이러한 개체를 기반으로 진술되기 때문에 일반적으로 정보 추출의 첫 번째 단계입니다.
정보 추출은 어떻게 평가됩니까?
추출은 일반적으로 정밀도(추출된 항목 중 올바른 항목의 비율)와 재현율(올바른 항목 중 추출된 항목의 비율)로 평가되며, 종종 F-측정으로 결합됩니다. 이는 너무 적게 추출하는 것과 잘못된 정보를 추출하는 것 사이의 절충을 반영합니다.

Methods for this concept

Related concepts