개체명 인식이란 무엇인가?

개체명 인식은 텍스트에서 사람, 조직, 위치와 같은 고유명사 스팬을 찾아 분류합니다. 이는 일반적으로 문서에서 관계와 이벤트를 추출하는 첫 번째 단계입니다.

정보 추출

비정형 텍스트를 정형 데이터로 전환하는 과정: 명명된 개체, 개체 간의 관계, 그리고 개체가 참여하는 이벤트를 탐지하여 문서를 쿼리하고 집계할 수 있도록 합니다.

PaperMind(으)로 주제 찾기곧 제공Find papers & topics

Tools & resources

슬라이드 다운로드

Learn & explore

동영상곧 제공

Definition

정보 추출은 비정형 자연어 텍스트에서 개체, 관계, 이벤트와 같은 정형화된 사실을 자동으로 식별하는 것입니다.

Scope

텍스트에서 정형 정보를 추출하는 것 — 개체명 인식, 관계 추출, 이벤트 추출, 시간 및 템플릿 채우기를 다룹니다. 규칙 기반 및 학습 기반 접근 방식과 공유 작업을 통해 확립된 평가 전통을 모두 다룹니다. 기본이 되는 시퀀스 레이블링 모델은 구문 분석 영역에서 다룹니다.

Core questions

텍스트에서 개체명은 어떻게 탐지되고 분류되는가?
개체 간의 관계와 이벤트는 어떻게 추출되는가?
공유 평가는 작업과 그 측정 기준을 어떻게 형성했는가?
규칙 기반 추출 방법과 학습 기반 추출 방법은 어떻게 비교되는가?

Key concepts

개체명 인식
관계 추출
이벤트 추출
템플릿 채우기
조건부 무작위장
원격 감독
온톨로지 구축
평가 캠페인

Key theories

템플릿 채우기 정보 추출: 텍스트에서 발견된 개체와 관계로 정형화된 템플릿을 채우는 것으로 추출을 구성하는 방식이며, 메시지 이해 회의에서 개발된 공식입니다.
시퀀스 레이블링 추출: 토큰에 대한 조건부 무작위장 및 신경 태거와 같은 모델을 사용하여 개체 및 스팬 추출을 시퀀스 레이블링으로 간주하는 방식입니다.

History

정보 추출은 1990년대 메시지 이해 회의(Message Understanding Conferences)에 의해 형성되었으며, 이 회의에서 개체명 및 템플릿 채우기 작업과 그 평가가 정의되었습니다. 이 분야는 수작업으로 구축된 패턴에서 조건부 무작위장(conditional random fields)과 같은 통계적 시퀀스 모델로, 그리고 대규모 신경망 및 원격 감독 추출로 발전했습니다.

Debates

지도 학습 대 원격 감독 추출: 비용이 많이 드는 수동 레이블링 데이터에 의존할 것인지, 아니면 확장 가능하지만 노이즈가 있는 레이블을 도입하는 원격 감독을 통해 지식 기반에서 부트스트랩할 것인지에 대한 논의입니다.

Key figures

Ralph Grishman
Beth Sundheim
Andrew McCallum

Seminal works

grishman1996
lafferty2001

Frequently asked questions

개체명 인식이란 무엇인가?: 개체명 인식은 텍스트에서 사람, 조직, 위치와 같은 고유명사 스팬을 찾아 분류합니다. 이는 일반적으로 문서에서 관계와 이벤트를 추출하는 첫 번째 단계입니다.