ScholarGate
Ассистент

Лексические и корпусные ресурсы

Данные и базы знаний, на которых основывается эмпирическая вычислительная лингвистика: текстовые корпуса, лексические базы данных и онтологии, вычислительные методы обработки структуры слов и размеченные синтаксические корпуса.

Найти тему в PaperMindСкороFind papers & topics
Tools & resources
Скачать слайды
Learn & explore
ВидеоСкоро

Definition

Лексические и корпусные ресурсы — это структурированные коллекции языковых данных (текстов, лексиконов и аннотаций), созданные для поддержки эмпирического анализа и обучения систем обработки языка.

Scope

Охватывает создание, курирование и использование языковых ресурсов — сбалансированных и веб-корпусов, лексико-семантических баз данных, таких как WordNet, вычислительной морфологии и лексиконов, а также размеченных синтаксических корпусов. Рассматриваются вопросы проектирования корпусов, репрезентативности, стандартов аннотации и роли ресурсов в обучении и оценке систем. Алгоритмическое моделирование, использующее эти ресурсы, рассматривается в других разделах.

Sub-topics

Core questions

  • Как проектируются корпуса, чтобы быть репрезентативными и сбалансированными?
  • Как можно организовать значения слов в машиночитаемые лексические базы данных?
  • Как представлена структура слова в вычислительном плане для морфологически богатых языков?
  • Почему размеченные синтаксические корпуса играют центральную роль в лингвистике, основанной на данных?

Key concepts

  • корпус
  • репрезентативность
  • лексическая база данных
  • WordNet
  • синсет
  • морфологический лексикон
  • синтаксический корпус
  • стандарт аннотации

Key theories

Корпусный эмпиризм
Методологическая позиция, согласно которой лингвистические обобщения и параметры системы должны основываться на больших выборках засвидетельствованного употребления, а не только на интроспекции.
Лексико-семантические сети
Организация лексикона как графа значений, связанных отношениями, такими как синонимия и гиперонимия, как в WordNet, что поддерживает задачи от разрешения неоднозначности до определения семантического сходства.

History

Переход к эмпирическим методам в 1990-х годах сделал корпуса и лексические ресурсы основополагающими. WordNet предоставил многократно используемую лексико-семантическую базу данных, сбалансированные корпуса, такие как Британский национальный корпус, установили стандарты проектирования, а работы Килгарриффа и Грефенстетте легитимизировали саму Всемирную паутину как обширный корпус для лингвистических исследований.

Debates

Сбалансированные корпуса против Веба как корпуса
Вопрос о том, что лучше служит лингвистическому исследованию: тщательно сбалансированные корпуса или обширный, но менее структурированный Веб; область исследований все чаще использует оба подхода, взвешивая репрезентативность и масштаб.

Key figures

  • Christiane Fellbaum
  • Adam Kilgarriff
  • Christopher Manning
  • George Miller

Related topics

Seminal works

  • fellbaum1998
  • kilgarriff2003
  • manning1999

Frequently asked questions

Что делает корпус хорошим?
Хороший корпус достаточно велик для получения надежной статистики и репрезентативен для изучаемого языкового варианта, с четкой документацией его источников, выборки и любой аннотации, чтобы результаты могли быть интерпретированы и воспроизведены.

Methods for this concept

Related concepts