Что делает корпус хорошим?

Хороший корпус достаточно велик для получения надежной статистики и репрезентативен для изучаемого языкового варианта, с четкой документацией его источников, выборки и любой аннотации, чтобы результаты могли быть интерпретированы и воспроизведены.

Лексические и корпусные ресурсы

Данные и базы знаний, на которых основывается эмпирическая вычислительная лингвистика: текстовые корпуса, лексические базы данных и онтологии, вычислительные методы обработки структуры слов и размеченные синтаксические корпуса.

Найти тему в PaperMindСкороFind papers & topics

Tools & resources

Скачать слайды

Learn & explore

ВидеоСкоро

Definition

Лексические и корпусные ресурсы — это структурированные коллекции языковых данных (текстов, лексиконов и аннотаций), созданные для поддержки эмпирического анализа и обучения систем обработки языка.

Scope

Охватывает создание, курирование и использование языковых ресурсов — сбалансированных и веб-корпусов, лексико-семантических баз данных, таких как WordNet, вычислительной морфологии и лексиконов, а также размеченных синтаксических корпусов. Рассматриваются вопросы проектирования корпусов, репрезентативности, стандартов аннотации и роли ресурсов в обучении и оценке систем. Алгоритмическое моделирование, использующее эти ресурсы, рассматривается в других разделах.

Sub-topics

Core questions

Как проектируются корпуса, чтобы быть репрезентативными и сбалансированными?
Как можно организовать значения слов в машиночитаемые лексические базы данных?
Как представлена структура слова в вычислительном плане для морфологически богатых языков?
Почему размеченные синтаксические корпуса играют центральную роль в лингвистике, основанной на данных?

Key concepts

корпус
репрезентативность
лексическая база данных
WordNet
синсет
морфологический лексикон
синтаксический корпус
стандарт аннотации

Key theories

Корпусный эмпиризм: Методологическая позиция, согласно которой лингвистические обобщения и параметры системы должны основываться на больших выборках засвидетельствованного употребления, а не только на интроспекции.
Лексико-семантические сети: Организация лексикона как графа значений, связанных отношениями, такими как синонимия и гиперонимия, как в WordNet, что поддерживает задачи от разрешения неоднозначности до определения семантического сходства.

History

Переход к эмпирическим методам в 1990-х годах сделал корпуса и лексические ресурсы основополагающими. WordNet предоставил многократно используемую лексико-семантическую базу данных, сбалансированные корпуса, такие как Британский национальный корпус, установили стандарты проектирования, а работы Килгарриффа и Грефенстетте легитимизировали саму Всемирную паутину как обширный корпус для лингвистических исследований.

Debates

Сбалансированные корпуса против Веба как корпуса: Вопрос о том, что лучше служит лингвистическому исследованию: тщательно сбалансированные корпуса или обширный, но менее структурированный Веб; область исследований все чаще использует оба подхода, взвешивая репрезентативность и масштаб.

Key figures

Christiane Fellbaum
Adam Kilgarriff
Christopher Manning
George Miller

Seminal works

fellbaum1998
kilgarriff2003
manning1999

Frequently asked questions

Что делает корпус хорошим?: Хороший корпус достаточно велик для получения надежной статистики и репрезентативен для изучаемого языкового варианта, с четкой документацией его источников, выборки и любой аннотации, чтобы результаты могли быть интерпретированы и воспроизведены.