ScholarGate
어시스턴트

정보 추출

비정형 텍스트를 정형 데이터로 전환하는 과정: 명명된 개체, 개체 간의 관계, 그리고 개체가 참여하는 이벤트를 탐지하여 문서를 쿼리하고 집계할 수 있도록 합니다.

PaperMind(으)로 주제 찾기곧 제공Find papers & topics
Tools & resources
슬라이드 다운로드
Learn & explore
동영상곧 제공

Definition

정보 추출은 비정형 자연어 텍스트에서 개체, 관계, 이벤트와 같은 정형화된 사실을 자동으로 식별하는 것입니다.

Scope

텍스트에서 정형 정보를 추출하는 것 — 개체명 인식, 관계 추출, 이벤트 추출, 시간 및 템플릿 채우기를 다룹니다. 규칙 기반 및 학습 기반 접근 방식과 공유 작업을 통해 확립된 평가 전통을 모두 다룹니다. 기본이 되는 시퀀스 레이블링 모델은 구문 분석 영역에서 다룹니다.

Core questions

  • 텍스트에서 개체명은 어떻게 탐지되고 분류되는가?
  • 개체 간의 관계와 이벤트는 어떻게 추출되는가?
  • 공유 평가는 작업과 그 측정 기준을 어떻게 형성했는가?
  • 규칙 기반 추출 방법과 학습 기반 추출 방법은 어떻게 비교되는가?

Key concepts

  • 개체명 인식
  • 관계 추출
  • 이벤트 추출
  • 템플릿 채우기
  • 조건부 무작위장
  • 원격 감독
  • 온톨로지 구축
  • 평가 캠페인

Key theories

템플릿 채우기 정보 추출
텍스트에서 발견된 개체와 관계로 정형화된 템플릿을 채우는 것으로 추출을 구성하는 방식이며, 메시지 이해 회의에서 개발된 공식입니다.
시퀀스 레이블링 추출
토큰에 대한 조건부 무작위장 및 신경 태거와 같은 모델을 사용하여 개체 및 스팬 추출을 시퀀스 레이블링으로 간주하는 방식입니다.

History

정보 추출은 1990년대 메시지 이해 회의(Message Understanding Conferences)에 의해 형성되었으며, 이 회의에서 개체명 및 템플릿 채우기 작업과 그 평가가 정의되었습니다. 이 분야는 수작업으로 구축된 패턴에서 조건부 무작위장(conditional random fields)과 같은 통계적 시퀀스 모델로, 그리고 대규모 신경망 및 원격 감독 추출로 발전했습니다.

Debates

지도 학습 대 원격 감독 추출
비용이 많이 드는 수동 레이블링 데이터에 의존할 것인지, 아니면 확장 가능하지만 노이즈가 있는 레이블을 도입하는 원격 감독을 통해 지식 기반에서 부트스트랩할 것인지에 대한 논의입니다.

Key figures

  • Ralph Grishman
  • Beth Sundheim
  • Andrew McCallum

Related topics

Seminal works

  • grishman1996
  • lafferty2001

Frequently asked questions

개체명 인식이란 무엇인가?
개체명 인식은 텍스트에서 사람, 조직, 위치와 같은 고유명사 스팬을 찾아 분류합니다. 이는 일반적으로 문서에서 관계와 이벤트를 추출하는 첫 번째 단계입니다.

Methods for this concept

Related concepts