ScholarGate
Ассистент

Корпусная лингвистика и веб-корпусы

Изучение языка с помощью больших выборок аутентичных текстов: создание и запрос корпусов, измерение коллокаций и частот, а также использование Интернета как обширного лингвистического ресурса.

Найти тему в PaperMindСкороFind papers & topics
Tools & resources
Скачать слайды
Learn & explore
ВидеоСкоро

Definition

Корпусная лингвистика — это эмпирическое исследование языка, основанное на систематических коллекциях естественно встречающихся текстов, анализируемых с помощью мер частотности, конкорданса и ассоциации.

Scope

Охватывает проектирование, компиляцию и анализ текстовых корпусов — выборку и сбалансированность, конкорданс и анализ ключевых слов, статистику частотности и коллокаций, такую как взаимная информация, а также использование Интернета в качестве корпуса. Рассматриваются как дескриптивная корпусная лингвистика, так и предоставление данных для вычислительных систем. Схемы аннотации и синтаксические деревья (treebanks) рассматриваются в смежной теме.

Core questions

  • Как осуществляется выборка корпусов для справедливого представления языкового варианта?
  • Как меры ассоциации, такие как взаимная информация, выявляют коллокации?
  • Каковы преимущества и недостатки использования Интернета в качестве корпуса?
  • Как конкордансы поддерживают лингвистический и лексикографический анализ?

Key concepts

  • дизайн корпуса
  • конкорданс
  • коллокация
  • точечная взаимная информация
  • частотное распределение
  • анализ ключевых слов
  • Интернет как корпус
  • сбалансированный корпус

Key theories

Меры ассоциации для коллокаций
Использование статистических данных, таких как точечная взаимная информация, для обнаружения пар слов, которые встречаются вместе чаще, чем случайно, выявляя коллокации и поддерживая лексикографию.
Интернет как корпус
Рассмотрение Интернета как огромного, хотя и неконтролируемого, корпуса, позволяющего изучать редкие явления и низкоресурсные варианты, одновременно поднимая вопросы репрезентативности.

History

Корпусная лингвистика выросла из лексикографических проектов Синклера и создания сбалансированных корпусов, в то время как работа Чёрча и Хэнкса 1989 года по взаимной информации ввела статистические меры ассоциации в мейнстрим. Килгаррифф и Грефенстетте позже утвердили Интернет как легитимный, хотя и зашумленный, корпус беспрецедентного масштаба.

Debates

Репрезентативность веб-данных
Веб-корпусы огромны, но несбалансированы и их трудно охарактеризовать, что вызывает дебаты о том, насколько выводы, сделанные на их основе, применимы к языку в целом.

Key figures

  • Adam Kilgarriff
  • Kenneth Church
  • Patrick Hanks
  • John Sinclair

Related topics

Seminal works

  • church1989
  • kilgarriff2003

Frequently asked questions

Что такое коллокация?
Коллокация — это пара или группа слов, которые обычно встречаются вместе чаще, чем можно было бы ожидать случайно, например, 'крепкий чай' (strong tea), а не 'мощный чай' (powerful tea). Меры ассоциации помогают обнаруживать их автоматически.

Methods for this concept

Related concepts