정보 추출
비정형 텍스트를 정형 데이터로 전환하는 과정: 명명된 개체, 개체 간의 관계, 그리고 개체가 참여하는 이벤트를 탐지하여 문서를 쿼리하고 집계할 수 있도록 합니다.
PaperMind(으)로 주제 찾기곧 제공Find papers & topics
Tools & resources
Learn & explore
동영상곧 제공
Definition
정보 추출은 비정형 자연어 텍스트에서 개체, 관계, 이벤트와 같은 정형화된 사실을 자동으로 식별하는 것입니다.
Scope
텍스트에서 정형 정보를 추출하는 것 — 개체명 인식, 관계 추출, 이벤트 추출, 시간 및 템플릿 채우기를 다룹니다. 규칙 기반 및 학습 기반 접근 방식과 공유 작업을 통해 확립된 평가 전통을 모두 다룹니다. 기본이 되는 시퀀스 레이블링 모델은 구문 분석 영역에서 다룹니다.
Core questions
- 텍스트에서 개체명은 어떻게 탐지되고 분류되는가?
- 개체 간의 관계와 이벤트는 어떻게 추출되는가?
- 공유 평가는 작업과 그 측정 기준을 어떻게 형성했는가?
- 규칙 기반 추출 방법과 학습 기반 추출 방법은 어떻게 비교되는가?
Key concepts
- 개체명 인식
- 관계 추출
- 이벤트 추출
- 템플릿 채우기
- 조건부 무작위장
- 원격 감독
- 온톨로지 구축
- 평가 캠페인
Key theories
- 템플릿 채우기 정보 추출
- 텍스트에서 발견된 개체와 관계로 정형화된 템플릿을 채우는 것으로 추출을 구성하는 방식이며, 메시지 이해 회의에서 개발된 공식입니다.
- 시퀀스 레이블링 추출
- 토큰에 대한 조건부 무작위장 및 신경 태거와 같은 모델을 사용하여 개체 및 스팬 추출을 시퀀스 레이블링으로 간주하는 방식입니다.
History
정보 추출은 1990년대 메시지 이해 회의(Message Understanding Conferences)에 의해 형성되었으며, 이 회의에서 개체명 및 템플릿 채우기 작업과 그 평가가 정의되었습니다. 이 분야는 수작업으로 구축된 패턴에서 조건부 무작위장(conditional random fields)과 같은 통계적 시퀀스 모델로, 그리고 대규모 신경망 및 원격 감독 추출로 발전했습니다.
Debates
- 지도 학습 대 원격 감독 추출
- 비용이 많이 드는 수동 레이블링 데이터에 의존할 것인지, 아니면 확장 가능하지만 노이즈가 있는 레이블을 도입하는 원격 감독을 통해 지식 기반에서 부트스트랩할 것인지에 대한 논의입니다.
Key figures
- Ralph Grishman
- Beth Sundheim
- Andrew McCallum
Related topics
Seminal works
- grishman1996
- lafferty2001
Frequently asked questions
- 개체명 인식이란 무엇인가?
- 개체명 인식은 텍스트에서 사람, 조직, 위치와 같은 고유명사 스팬을 찾아 분류합니다. 이는 일반적으로 문서에서 관계와 이벤트를 추출하는 첫 번째 단계입니다.