ScholarGate
Ассистент

Основы компьютерной лингвистики

Математические и методологические основы компьютерной лингвистики: формальные грамматики, автоматы, конечно-автоматные методы, вероятностные языковые модели и практики оценки, позволяющие строго сравнивать системы.

Найти тему в PaperMindСкороFind papers & topics
Tools & resources
Скачать слайды
Learn & explore
ВидеоСкоро

Definition

Основы компьютерной лингвистики — это изучение формальных, алгоритмических и статистических примитивов, используемых для представления и обработки естественного языка машиной.

Scope

Эта область охватывает абстракции, на которых строятся компьютерные методы обработки языка. Она включает иерархию Хомского формальных языков и распознающие их автоматы, регулярные выражения и конечные преобразователи как практические инструменты для токенизации и морфологии, n-граммные и вероятностные языковые модели, а также экспериментальный аппарат — корпуса, аннотации, разбиения на обучающие/тестовые выборки и метрики оценки, — который лежит в основе эмпирической работы. Она исключает конкретные прикладные задачи и глубокий синтаксический анализ, которые рассматриваются в отдельных областях.

Sub-topics

Core questions

  • Какие классы формальных языков существуют и какие автоматы их распознают?
  • Как конечно-автоматные методы могут эффективно моделировать токенизацию, орфографию и морфологию?
  • Как мы присваиваем вероятности последовательностям слов и почему это полезно?
  • Как следует оценивать системы обработки языка, чтобы результаты были сопоставимы и воспроизводимы?

Key concepts

  • Иерархия Хомского
  • конечно-автоматный автомат
  • регулярное выражение
  • бесконтекстная грамматика
  • n-граммная модель
  • сглаживание
  • перплексия
  • корпус и аннотация

Key theories

Иерархия Хомского
Иерархия вложенности классов формальных языков (регулярные, бесконтекстные, контекстно-зависимые, рекурсивно перечислимые), каждый из которых связан с классом грамматики и абстрактной машиной, что определяет, сколько вычислительной мощности требуется для описания явлений естественного языка.
Вероятностное языковое моделирование
Рассмотрение языка как стохастического процесса и оценка вероятности последовательностей слов, классически с помощью n-граммных моделей со сглаживанием, что обеспечивает основу для распознавания речи, исправления орфографии и генерации.

History

Компьютерная лингвистика унаследовала свое формальное ядро от работ 1950-х годов по теории формальных языков (Хомский) и теории информации (Шеннон), которые вместе предложили как символьные грамматики, так и вероятностные модели языка. Конечно-автоматные методы развивались на протяжении 1980-х годов как эффективные инструменты для морфологии и фонологии, в то время как статистическая революция 1990-х годов, описанная Мэннингом и Шютце, сделала корпусно-ориентированное вероятностное моделирование доминирующей эмпирической парадигмой.

Debates

Символьные грамматики против статистических моделей
Вопрос о том, что лучше описывает естественный язык: созданные вручную формальные правила или вероятностные распределения, оцененные по данным; область в значительной степени пришла к гибридным и управляемым данными подходам, сохраняя при этом формальные грамматики в качестве аналитических инструментов.

Key figures

  • Noam Chomsky
  • Claude Shannon
  • Daniel Jurafsky
  • James H. Martin
  • Christopher Manning

Related topics

Seminal works

  • chomsky1956
  • manning1999
  • jurafsky2025

Frequently asked questions

Почему компьютерные лингвисты интересуются иерархией Хомского?
Она показывает минимальный вычислительный аппарат, необходимый для явления: регулярные паттерны могут быть обработаны быстрыми конечно-автоматными инструментами, в то время как явления, такие как вложенные придаточные предложения, требуют как минимум бесконтекстной мощности. Выбор правильного уровня делает системы адекватными и эффективными.
Является ли языковое моделирование тем же самым, что и большая языковая модель?
Они имеют одну и ту же основную задачу — присвоение вероятностей последовательностям слов, — но классические языковые модели были счетчиками n-грамм, тогда как современные большие языковые модели используют нейронные сети. Фундаментальная идея идентична; метод оценки различается.

Methods for this concept

Related concepts