좋은 코퍼스란 무엇입니까?

좋은 코퍼스는 신뢰할 수 있는 통계를 위해 충분히 크고, 연구 대상 언어 변종을 대표하며, 출처, 샘플링 및 모든 주석에 대한 명확한 문서가 있어 결과를 해석하고 재현할 수 있도록 합니다.

어휘 및 코퍼스 자원

경험적 전산 언어학이 의존하는 데이터 및 지식 기반: 텍스트 코퍼스, 어휘 데이터베이스 및 온톨로지, 단어 구조의 전산 처리, 그리고 풍부하게 주석이 달린 트리뱅크.

PaperMind(으)로 주제 찾기곧 제공Find papers & topics

Tools & resources

슬라이드 다운로드

Learn & explore

동영상곧 제공

Definition

어휘 및 코퍼스 자원은 경험적 분석과 언어 처리 시스템 훈련을 지원하기 위해 구축된 언어 데이터(텍스트, 어휘집, 주석)의 구조화된 모음입니다.

Scope

언어 자원의 구축, 관리 및 활용을 다룹니다. 여기에는 균형 잡힌 코퍼스 및 웹 코퍼스, WordNet과 같은 어휘-의미 데이터베이스, 전산 형태론 및 어휘집, 그리고 주석이 달린 트리뱅크가 포함됩니다. 코퍼스 설계, 대표성, 주석 표준, 그리고 시스템 훈련 및 평가에서 자원의 역할에 대해 다룹니다. 이러한 자원을 활용하는 알고리즘 모델링은 다른 영역에서 다룹니다.

Sub-topics

Core questions

코퍼스는 어떻게 대표성과 균형을 갖도록 설계됩니까?
단어 의미는 어떻게 기계가 읽을 수 있는 어휘 데이터베이스로 조직될 수 있습니까?
형태론적으로 풍부한 언어에서 단어 구조는 전산적으로 어떻게 표현됩니까?
주석이 달린 트리뱅크가 데이터 기반 언어학의 핵심인 이유는 무엇입니까?

Key concepts

코퍼스
대표성
어휘 데이터베이스
WordNet
동의어 집합 (synset)
형태론적 어휘집
트리뱅크
주석 표준

Key theories

코퍼스 기반 경험주의: 언어학적 일반화와 시스템 매개변수가 순수한 내성보다는 실제 사용의 대규모 샘플에 기반해야 한다는 방법론적 입장입니다.
어휘-의미 네트워크: WordNet에서처럼 동의어 및 상위어와 같은 관계로 연결된 의미들의 그래프로 어휘를 조직하여, 의미 모호성 해소에서 의미 유사성까지 다양한 작업을 지원합니다.

History

1990년대 경험적 방법론으로의 전환은 코퍼스와 어휘 자원을 핵심적인 것으로 만들었습니다. WordNet은 재사용 가능한 어휘-의미 데이터베이스를 제공했고, British National Corpus와 같은 균형 잡힌 코퍼스는 설계 표준을 확립했으며, Kilgarriff와 Grefenstette의 연구는 웹 자체를 언어 연구를 위한 방대한 코퍼스로 정당화했습니다.

Debates

균형 잡힌 코퍼스 대 웹 코퍼스: 신중하게 균형 잡힌 코퍼스가 언어 연구에 더 적합한지, 아니면 복잡하지만 방대한 웹이 더 적합한지에 대한 논쟁입니다. 학계에서는 대표성과 규모를 고려하여 두 가지를 모두 사용하는 경향이 있습니다.

Key figures

Christiane Fellbaum
Adam Kilgarriff
Christopher Manning
George Miller

Seminal works

fellbaum1998
kilgarriff2003
manning1999

Frequently asked questions

좋은 코퍼스란 무엇입니까?: 좋은 코퍼스는 신뢰할 수 있는 통계를 위해 충분히 크고, 연구 대상 언어 변종을 대표하며, 출처, 샘플링 및 모든 주석에 대한 명확한 문서가 있어 결과를 해석하고 재현할 수 있도록 합니다.