ScholarGate
어시스턴트

코퍼스 언어학 및 웹 코퍼스

방대한 양의 실제 텍스트 샘플을 통해 언어를 연구합니다. 코퍼스 구축 및 질의, 연어 및 빈도 측정, 그리고 웹을 광대한 언어 자원으로 활용하는 방법을 다룹니다.

PaperMind(으)로 주제 찾기곧 제공Find papers & topics
Tools & resources
슬라이드 다운로드
Learn & explore
동영상곧 제공

Definition

코퍼스 언어학은 자연적으로 발생하는 텍스트의 체계적인 수집을 기반으로 언어를 실증적으로 연구하며, 빈도, 색인, 연관성 측정치를 사용하여 분석합니다.

Scope

텍스트 코퍼스의 설계, 편집 및 분석(샘플링 및 균형, 색인 및 키워드 분석, 상호 정보와 같은 빈도 및 연어 통계, 그리고 웹을 코퍼스로 활용하는 방법)을 다룹니다. 이는 기술 코퍼스 언어학과 전산 시스템을 위한 데이터 공급을 모두 다룹니다. 주석 스키마와 트리뱅크는 관련 주제에서 다룹니다.

Core questions

  • 언어 변이를 공정하게 대표하기 위해 코퍼스는 어떻게 샘플링됩니까?
  • 상호 정보와 같은 연관성 측정치는 어떻게 연어를 밝혀냅니까?
  • 웹을 코퍼스로 사용하는 것의 이점과 함정은 무엇입니까?
  • 색인은 언어학적 및 사전 편찬 분석을 어떻게 지원합니까?

Key concepts

  • 코퍼스 설계
  • 색인
  • 연어
  • 점별 상호 정보
  • 빈도 분포
  • 키워드 분석
  • 코퍼스로서의 웹
  • 균형 코퍼스

Key theories

연어를 위한 연관성 측정
점별 상호 정보와 같은 통계를 사용하여 우연보다 더 자주 함께 발생하는 단어 쌍을 감지하고, 연어를 밝혀내며 사전 편찬을 지원합니다.
코퍼스로서의 웹
웹을 통제되지 않지만 거대한 코퍼스로 취급하여 희귀 현상 및 저자원 변이 연구를 가능하게 하는 동시에 대표성 문제를 제기합니다.

History

코퍼스 언어학은 싱클레어(Sinclair)의 사전 편찬 프로젝트와 균형 코퍼스 구축에서 발전했으며, 처치(Church)와 행크스(Hanks)의 1989년 상호 정보(mutual information) 연구는 통계적 연관성 측정치를 주류로 가져왔습니다. 킬가리프(Kilgarriff)와 그레펜스테트(Grefenstette)는 이후 웹을 전례 없는 규모의, 비록 노이즈가 많지만, 합법적인 코퍼스로 확립했습니다.

Debates

웹 데이터의 대표성
웹 코퍼스는 방대하지만 불균형하고 특성을 파악하기 어려워, 웹 코퍼스에서 도출된 결론이 언어 전체에 얼마나 일반화될 수 있는지에 대한 논쟁을 불러일으킵니다.

Key figures

  • Adam Kilgarriff
  • Kenneth Church
  • Patrick Hanks
  • John Sinclair

Related topics

Seminal works

  • church1989
  • kilgarriff2003

Frequently asked questions

연어(collocation)란 무엇입니까?
연어는 'powerful tea'보다는 'strong tea'와 같이 우연히 예측되는 것보다 더 자주 습관적으로 함께 발생하는 두 개 이상의 단어 쌍 또는 그룹입니다. 연관성 측정은 이를 자동으로 감지하는 데 도움이 됩니다.

Methods for this concept

Related concepts