정보 추출
정보 추출은 비정형 자연어 텍스트 내에서 구조화된 정보(개체, 관계, 이벤트)를 자동으로 식별하는 작업입니다.
PaperMind(으)로 주제 찾기곧 제공Find papers & topics
Tools & resources
Learn & explore
동영상곧 제공
Definition
정보 추출은 개체, 개체 간의 관계, 그리고 개체가 참여하는 이벤트에 대한 언급을 감지하고 분류함으로써 비정형 텍스트를 구조화된 표현으로 변환하며, 종종 데이터베이스나 지식 베이스를 채우는 데 사용됩니다.
Scope
이 주제는 텍스트에서 구조화된 사실을 추출하는 것, 즉 개체명 인식, 관계 추출, 이벤트 추출, 공참조 해결, 그리고 템플릿 또는 지식 베이스 채우기를 다룹니다. 또한 규칙 기반, 통계적 순서 레이블링, 지도 및 원격 지도 접근 방식, 그리고 정밀도와 재현율을 통한 추출 평가에 대해 다룹니다. 추출기 훈련에 사용되는 일반적인 기계 학습 방법은 기계 학습 하위 분야에 속하며, 여기서는 추출 작업과 그 언어학적 난제에 중점을 둡니다.
Core questions
- 사람, 조직, 위치와 같은 개체에 대한 언급은 텍스트에서 어떻게 감지되고 분류됩니까?
- 개체 간의 관계는 어떻게 식별되고 추출됩니까?
- 이벤트와 그 참여자는 어떻게 인식되며, 공참조는 어떻게 해결됩니까?
- 추출 성능은 어떻게 평가되며, 정밀도와 재현율 사이에는 어떤 절충이 발생합니까?
Key concepts
- 개체명 인식
- 관계 추출
- 이벤트 추출
- 공참조 해결
- BIO 순서 레이블링
- 템플릿 채우기
- 지식 베이스 구축
- 정밀도 및 재현율
Key theories
- 순서 레이블링으로서의 개체명 인식
- 개체 언급을 식별하는 것은 일반적으로 각 토큰에 태그를 지정하는 것(예: BIO 스키마 사용)으로 구성되며, 문맥을 활용하여 스팬과 그 유형을 표시하는 순서 모델에 의해 해결됩니다.
- 관계 및 이벤트 추출
- 정보 추출은 개체를 넘어 개체들이 어떻게 관련되어 있는지, 어떤 이벤트가 발생하는지를 식별하여 구조화된 템플릿을 채웁니다. 이러한 작업 중심의 틀은 메시지 이해 회의(Message Understanding Conferences)에 의해 구체화되었습니다.
- 지식 베이스 구축
- 추출된 개체와 관계는 집계되어 지식 베이스를 구축하거나 확장할 수 있으며, 언급을 정식 개체에 연결하고 대규모 텍스트 컬렉션에서 사실을 축적합니다.
Clinical relevance
정보 추출은 텍스트를 생물의학 문헌 마이닝, 금융 및 뉴스 분석, 지식 그래프 구축, 문서에서 데이터베이스 채우기와 같은 응용 프로그램에 질의 가능한 데이터로 변환하여 방대한 양의 비정형 텍스트를 다운스트림 시스템에서 활용할 수 있도록 합니다.
History
정보 추출은 1980년대 후반과 1990년대의 메시지 이해 회의(MUC)에 의해 형성되었으며, 이 회의에서 개체명 인식 및 템플릿 채우기와 같은 작업이 정의되고 표준화된 평가가 도입되었습니다. 이 분야는 수작업 규칙에서 통계적 순서 모델, 그리고 나중에는 신경망 방법으로 발전했지만, 작업 구조는 유지되었습니다.
Key figures
- Ralph Grishman
- Beth Sundheim
- Christopher D. Manning
- Daniel Jurafsky
Related topics
Seminal works
- grishman1996
- jurafsky2023
Frequently asked questions
- 개체명 인식(Named Entity Recognition)이란 무엇입니까?
- 개체명 인식은 사람, 조직, 위치, 날짜와 같은 실제 개체를 지칭하는 텍스트 스팬을 찾아 분류하는 작업입니다. 많은 관계와 이벤트가 이러한 개체를 기반으로 진술되기 때문에 일반적으로 정보 추출의 첫 번째 단계입니다.
- 정보 추출은 어떻게 평가됩니까?
- 추출은 일반적으로 정밀도(추출된 항목 중 올바른 항목의 비율)와 재현율(올바른 항목 중 추출된 항목의 비율)로 평가되며, 종종 F-측정으로 결합됩니다. 이는 너무 적게 추출하는 것과 잘못된 정보를 추출하는 것 사이의 절충을 반영합니다.