Основы компьютерной лингвистики
Математические и методологические основы компьютерной лингвистики: формальные грамматики, автоматы, конечно-автоматные методы, вероятностные языковые модели и практики оценки, позволяющие строго сравнивать системы.
Definition
Основы компьютерной лингвистики — это изучение формальных, алгоритмических и статистических примитивов, используемых для представления и обработки естественного языка машиной.
Scope
Эта область охватывает абстракции, на которых строятся компьютерные методы обработки языка. Она включает иерархию Хомского формальных языков и распознающие их автоматы, регулярные выражения и конечные преобразователи как практические инструменты для токенизации и морфологии, n-граммные и вероятностные языковые модели, а также экспериментальный аппарат — корпуса, аннотации, разбиения на обучающие/тестовые выборки и метрики оценки, — который лежит в основе эмпирической работы. Она исключает конкретные прикладные задачи и глубокий синтаксический анализ, которые рассматриваются в отдельных областях.
Sub-topics
Core questions
- Какие классы формальных языков существуют и какие автоматы их распознают?
- Как конечно-автоматные методы могут эффективно моделировать токенизацию, орфографию и морфологию?
- Как мы присваиваем вероятности последовательностям слов и почему это полезно?
- Как следует оценивать системы обработки языка, чтобы результаты были сопоставимы и воспроизводимы?
Key concepts
- Иерархия Хомского
- конечно-автоматный автомат
- регулярное выражение
- бесконтекстная грамматика
- n-граммная модель
- сглаживание
- перплексия
- корпус и аннотация
Key theories
- Иерархия Хомского
- Иерархия вложенности классов формальных языков (регулярные, бесконтекстные, контекстно-зависимые, рекурсивно перечислимые), каждый из которых связан с классом грамматики и абстрактной машиной, что определяет, сколько вычислительной мощности требуется для описания явлений естественного языка.
- Вероятностное языковое моделирование
- Рассмотрение языка как стохастического процесса и оценка вероятности последовательностей слов, классически с помощью n-граммных моделей со сглаживанием, что обеспечивает основу для распознавания речи, исправления орфографии и генерации.
History
Компьютерная лингвистика унаследовала свое формальное ядро от работ 1950-х годов по теории формальных языков (Хомский) и теории информации (Шеннон), которые вместе предложили как символьные грамматики, так и вероятностные модели языка. Конечно-автоматные методы развивались на протяжении 1980-х годов как эффективные инструменты для морфологии и фонологии, в то время как статистическая революция 1990-х годов, описанная Мэннингом и Шютце, сделала корпусно-ориентированное вероятностное моделирование доминирующей эмпирической парадигмой.
Debates
- Символьные грамматики против статистических моделей
- Вопрос о том, что лучше описывает естественный язык: созданные вручную формальные правила или вероятностные распределения, оцененные по данным; область в значительной степени пришла к гибридным и управляемым данными подходам, сохраняя при этом формальные грамматики в качестве аналитических инструментов.
Key figures
- Noam Chomsky
- Claude Shannon
- Daniel Jurafsky
- James H. Martin
- Christopher Manning
Related topics
Seminal works
- chomsky1956
- manning1999
- jurafsky2025
Frequently asked questions
- Почему компьютерные лингвисты интересуются иерархией Хомского?
- Она показывает минимальный вычислительный аппарат, необходимый для явления: регулярные паттерны могут быть обработаны быстрыми конечно-автоматными инструментами, в то время как явления, такие как вложенные придаточные предложения, требуют как минимум бесконтекстной мощности. Выбор правильного уровня делает системы адекватными и эффективными.
- Является ли языковое моделирование тем же самым, что и большая языковая модель?
- Они имеют одну и ту же основную задачу — присвоение вероятностей последовательностям слов, — но классические языковые модели были счетчиками n-грамм, тогда как современные большие языковые модели используют нейронные сети. Фундаментальная идея идентична; метод оценки различается.