ScholarGate
어시스턴트

트리뱅크 및 주석이 달린 코퍼스

구문 트리, 의존성, 의미 및 개체와 같은 언어학적 구조로 수동으로 주석이 달린 코퍼스로, 전산 언어학을 위한 훈련 데이터 및 골드 표준 역할을 합니다.

PaperMind(으)로 주제 찾기곧 제공Find papers & topics
Tools & resources
슬라이드 다운로드
Learn & explore
동영상곧 제공

Definition

트리뱅크는 각 문장에 구문 구조가 주석으로 달린 코퍼스이며, 더 넓게는 주석이 달린 코퍼스는 사람이 추가한 명시적인 언어학적 레이블을 포함합니다.

Scope

주석이 달린 코퍼스, 특히 구성 또는 의존 구문을 포함하는 트리뱅크의 설계 및 구축, 그리고 그 뒤에 있는 주석 파이프라인, 가이드라인 및 품질 관리를 다룹니다. 여기에는 Penn Treebank 전통과 다국어 Universal Dependencies 노력, 그리고 주석자 간 일치(inter-annotator agreement)의 역할이 포함됩니다. 일반적인 코퍼스 설계 및 어휘 자원은 관련 주제에서 다룹니다.

Core questions

  • 트리뱅크는 어떻게 설계되며 어떤 주석 체계를 사용합니까?
  • 주석이 달린 코퍼스가 지도 학습에 필수적인 이유는 무엇입니까?
  • 주석 품질은 어떻게 보장되고 측정됩니까?
  • Universal Dependencies와 같은 다국어 주석은 어떻게 일관성을 달성합니까?

Key concepts

  • 트리뱅크
  • 주석 체계
  • 주석 가이드라인
  • 골드 표준
  • 주석자 간 일치
  • Penn Treebank
  • Universal Dependencies
  • 판정

Key theories

트리뱅크 기반 지도 학습
수동으로 주석이 달린 구문 코퍼스는 통계적 구문 분석, 태깅 및 많은 NLP 작업을 가능하게 한 지도 신호를 제공합니다.
다국어 조화 주석
Universal Dependencies는 많은 언어에 단일 주석 체계를 적용하여 비교 가능한 트리뱅크 및 모델 전이를 가능하게 합니다.

History

Penn Treebank (1993)는 최초의 대규모 구문 주석 코퍼스였으며 통계적 구문 분석을 촉진했습니다. 후속 트리뱅크는 의미 및 담화 계층을 추가했으며, Universal Dependencies 프로젝트는 언어 전반에 걸쳐 주석을 표준화하여 사실상의 다국어 트리뱅크 자원이 되었습니다.

Debates

주석 깊이 대 일관성
더 풍부한 주석은 더 많은 언어학적 세부 사항을 포착하지만 일관되게 적용하기가 더 어렵습니다. 프로젝트는 이론적 정교함과 신뢰할 수 있고 확장 가능한 주석 사이의 균형을 맞춰야 합니다.

Key figures

  • Mitchell Marcus
  • Beatrice Santorini
  • Marie-Catherine de Marneffe
  • Joakim Nivre

Related topics

Seminal works

  • marcus1993
  • demarneffe2021

Frequently asked questions

구문 분석기가 존재하는데 왜 트리뱅크를 수동으로 구축합니까?
구문 분석기는 인간이 주석을 단 트리뱅크를 기반으로 훈련되고 평가되며, 이는 골드 표준 역할을 합니다. 신뢰할 수 있는 수동 주석 없이는 학습할 대상이나 정확도를 측정할 기준이 없을 것입니다.

Methods for this concept

Related concepts