Лексические и корпусные ресурсы
Данные и базы знаний, на которых основывается эмпирическая вычислительная лингвистика: текстовые корпуса, лексические базы данных и онтологии, вычислительные методы обработки структуры слов и размеченные синтаксические корпуса.
Definition
Лексические и корпусные ресурсы — это структурированные коллекции языковых данных (текстов, лексиконов и аннотаций), созданные для поддержки эмпирического анализа и обучения систем обработки языка.
Scope
Охватывает создание, курирование и использование языковых ресурсов — сбалансированных и веб-корпусов, лексико-семантических баз данных, таких как WordNet, вычислительной морфологии и лексиконов, а также размеченных синтаксических корпусов. Рассматриваются вопросы проектирования корпусов, репрезентативности, стандартов аннотации и роли ресурсов в обучении и оценке систем. Алгоритмическое моделирование, использующее эти ресурсы, рассматривается в других разделах.
Sub-topics
Core questions
- Как проектируются корпуса, чтобы быть репрезентативными и сбалансированными?
- Как можно организовать значения слов в машиночитаемые лексические базы данных?
- Как представлена структура слова в вычислительном плане для морфологически богатых языков?
- Почему размеченные синтаксические корпуса играют центральную роль в лингвистике, основанной на данных?
Key concepts
- корпус
- репрезентативность
- лексическая база данных
- WordNet
- синсет
- морфологический лексикон
- синтаксический корпус
- стандарт аннотации
Key theories
- Корпусный эмпиризм
- Методологическая позиция, согласно которой лингвистические обобщения и параметры системы должны основываться на больших выборках засвидетельствованного употребления, а не только на интроспекции.
- Лексико-семантические сети
- Организация лексикона как графа значений, связанных отношениями, такими как синонимия и гиперонимия, как в WordNet, что поддерживает задачи от разрешения неоднозначности до определения семантического сходства.
History
Переход к эмпирическим методам в 1990-х годах сделал корпуса и лексические ресурсы основополагающими. WordNet предоставил многократно используемую лексико-семантическую базу данных, сбалансированные корпуса, такие как Британский национальный корпус, установили стандарты проектирования, а работы Килгарриффа и Грефенстетте легитимизировали саму Всемирную паутину как обширный корпус для лингвистических исследований.
Debates
- Сбалансированные корпуса против Веба как корпуса
- Вопрос о том, что лучше служит лингвистическому исследованию: тщательно сбалансированные корпуса или обширный, но менее структурированный Веб; область исследований все чаще использует оба подхода, взвешивая репрезентативность и масштаб.
Key figures
- Christiane Fellbaum
- Adam Kilgarriff
- Christopher Manning
- George Miller
Related topics
Seminal works
- fellbaum1998
- kilgarriff2003
- manning1999
Frequently asked questions
- Что делает корпус хорошим?
- Хороший корпус достаточно велик для получения надежной статистики и репрезентативен для изучаемого языкового варианта, с четкой документацией его источников, выборки и любой аннотации, чтобы результаты могли быть интерпретированы и воспроизведены.