Корпусная лингвистика и веб-корпусы
Изучение языка с помощью больших выборок аутентичных текстов: создание и запрос корпусов, измерение коллокаций и частот, а также использование Интернета как обширного лингвистического ресурса.
Definition
Корпусная лингвистика — это эмпирическое исследование языка, основанное на систематических коллекциях естественно встречающихся текстов, анализируемых с помощью мер частотности, конкорданса и ассоциации.
Scope
Охватывает проектирование, компиляцию и анализ текстовых корпусов — выборку и сбалансированность, конкорданс и анализ ключевых слов, статистику частотности и коллокаций, такую как взаимная информация, а также использование Интернета в качестве корпуса. Рассматриваются как дескриптивная корпусная лингвистика, так и предоставление данных для вычислительных систем. Схемы аннотации и синтаксические деревья (treebanks) рассматриваются в смежной теме.
Core questions
- Как осуществляется выборка корпусов для справедливого представления языкового варианта?
- Как меры ассоциации, такие как взаимная информация, выявляют коллокации?
- Каковы преимущества и недостатки использования Интернета в качестве корпуса?
- Как конкордансы поддерживают лингвистический и лексикографический анализ?
Key concepts
- дизайн корпуса
- конкорданс
- коллокация
- точечная взаимная информация
- частотное распределение
- анализ ключевых слов
- Интернет как корпус
- сбалансированный корпус
Key theories
- Меры ассоциации для коллокаций
- Использование статистических данных, таких как точечная взаимная информация, для обнаружения пар слов, которые встречаются вместе чаще, чем случайно, выявляя коллокации и поддерживая лексикографию.
- Интернет как корпус
- Рассмотрение Интернета как огромного, хотя и неконтролируемого, корпуса, позволяющего изучать редкие явления и низкоресурсные варианты, одновременно поднимая вопросы репрезентативности.
History
Корпусная лингвистика выросла из лексикографических проектов Синклера и создания сбалансированных корпусов, в то время как работа Чёрча и Хэнкса 1989 года по взаимной информации ввела статистические меры ассоциации в мейнстрим. Килгаррифф и Грефенстетте позже утвердили Интернет как легитимный, хотя и зашумленный, корпус беспрецедентного масштаба.
Debates
- Репрезентативность веб-данных
- Веб-корпусы огромны, но несбалансированы и их трудно охарактеризовать, что вызывает дебаты о том, насколько выводы, сделанные на их основе, применимы к языку в целом.
Key figures
- Adam Kilgarriff
- Kenneth Church
- Patrick Hanks
- John Sinclair
Related topics
Seminal works
- church1989
- kilgarriff2003
Frequently asked questions
- Что такое коллокация?
- Коллокация — это пара или группа слов, которые обычно встречаются вместе чаще, чем можно было бы ожидать случайно, например, 'крепкий чай' (strong tea), а не 'мощный чай' (powerful tea). Меры ассоциации помогают обнаруживать их автоматически.