트리뱅크 및 주석이 달린 코퍼스
구문 트리, 의존성, 의미 및 개체와 같은 언어학적 구조로 수동으로 주석이 달린 코퍼스로, 전산 언어학을 위한 훈련 데이터 및 골드 표준 역할을 합니다.
PaperMind(으)로 주제 찾기곧 제공Find papers & topics
Tools & resources
Learn & explore
동영상곧 제공
Definition
트리뱅크는 각 문장에 구문 구조가 주석으로 달린 코퍼스이며, 더 넓게는 주석이 달린 코퍼스는 사람이 추가한 명시적인 언어학적 레이블을 포함합니다.
Scope
주석이 달린 코퍼스, 특히 구성 또는 의존 구문을 포함하는 트리뱅크의 설계 및 구축, 그리고 그 뒤에 있는 주석 파이프라인, 가이드라인 및 품질 관리를 다룹니다. 여기에는 Penn Treebank 전통과 다국어 Universal Dependencies 노력, 그리고 주석자 간 일치(inter-annotator agreement)의 역할이 포함됩니다. 일반적인 코퍼스 설계 및 어휘 자원은 관련 주제에서 다룹니다.
Core questions
- 트리뱅크는 어떻게 설계되며 어떤 주석 체계를 사용합니까?
- 주석이 달린 코퍼스가 지도 학습에 필수적인 이유는 무엇입니까?
- 주석 품질은 어떻게 보장되고 측정됩니까?
- Universal Dependencies와 같은 다국어 주석은 어떻게 일관성을 달성합니까?
Key concepts
- 트리뱅크
- 주석 체계
- 주석 가이드라인
- 골드 표준
- 주석자 간 일치
- Penn Treebank
- Universal Dependencies
- 판정
Key theories
- 트리뱅크 기반 지도 학습
- 수동으로 주석이 달린 구문 코퍼스는 통계적 구문 분석, 태깅 및 많은 NLP 작업을 가능하게 한 지도 신호를 제공합니다.
- 다국어 조화 주석
- Universal Dependencies는 많은 언어에 단일 주석 체계를 적용하여 비교 가능한 트리뱅크 및 모델 전이를 가능하게 합니다.
History
Penn Treebank (1993)는 최초의 대규모 구문 주석 코퍼스였으며 통계적 구문 분석을 촉진했습니다. 후속 트리뱅크는 의미 및 담화 계층을 추가했으며, Universal Dependencies 프로젝트는 언어 전반에 걸쳐 주석을 표준화하여 사실상의 다국어 트리뱅크 자원이 되었습니다.
Debates
- 주석 깊이 대 일관성
- 더 풍부한 주석은 더 많은 언어학적 세부 사항을 포착하지만 일관되게 적용하기가 더 어렵습니다. 프로젝트는 이론적 정교함과 신뢰할 수 있고 확장 가능한 주석 사이의 균형을 맞춰야 합니다.
Key figures
- Mitchell Marcus
- Beatrice Santorini
- Marie-Catherine de Marneffe
- Joakim Nivre
Related topics
Seminal works
- marcus1993
- demarneffe2021
Frequently asked questions
- 구문 분석기가 존재하는데 왜 트리뱅크를 수동으로 구축합니까?
- 구문 분석기는 인간이 주석을 단 트리뱅크를 기반으로 훈련되고 평가되며, 이는 골드 표준 역할을 합니다. 신뢰할 수 있는 수동 주석 없이는 학습할 대상이나 정확도를 측정할 기준이 없을 것입니다.