Синтаксический анализ
Синтаксический анализ — это задача восстановления грамматической структуры предложения, присвоения ему дерева составляющих или структуры зависимостей, которые показывают, как слова объединяются и соотносятся друг с другом.
Definition
Синтаксический анализ отображает предложение в представление его грамматической структуры — обычно дерево составляющих (фразовой структуры) или граф зависимостей — в соответствии с грамматикой или моделью, полученной из аннотированных данных.
Scope
Эта тема охватывает анализ структуры предложения: контекстно-свободные и более богатые грамматики, анализ составляющих (деревья фразовой структуры) и анализ зависимостей (отношения «глава-зависимый»), классические алгоритмы табличного анализа, такие как CKY и Эрли, а также вероятностный и управляемый данными анализ, обученный на древовидных банках. В ней рассматривается, как синтаксическая неоднозначность представляется и разрешается. Последующее использование синтаксической структуры для вычисления значения рассматривается в рамках вычислительной семантики.
Core questions
- Как представлена грамматическая структура предложения: как составляющие или как зависимости?
- Как алгоритмы табличного анализа эффективно исследуют множество возможных анализов предложения?
- Как обрабатывается синтаксическая неоднозначность и как вероятностные модели выбирают среди вариантов разбора?
- Как обучаются и оцениваются анализаторы с использованием аннотированных корпусов (древовидных банков)?
Key concepts
- деревья составляющих (фразовой структуры)
- структуры зависимостей
- контекстно-свободная грамматика
- анализ CKY и Эрли
- вероятностная контекстно-свободная грамматика
- синтаксическая неоднозначность
- древовидные банки
- части речи
Key theories
- Контекстно-свободные грамматики и табличный анализ
- Контекстно-свободные грамматики моделируют фразовую структуру, а табличные анализаторы динамического программирования, такие как алгоритмы CKY и Эрли, восстанавливают все допустимые разборы за полиномиальное время, повторно используя анализы поддиапазонов.
- Вероятностный анализ
- Присвоение вероятностей правилам грамматики (как в вероятностных контекстно-свободных грамматиках) позволяет анализатору ранжировать конкурирующие анализы и выбирать наиболее вероятную структуру, решая проблему повсеместной неоднозначности синтаксиса естественного языка.
- Древовидные банки и анализ, управляемый данными
- Крупные аннотированные корпуса, такие как Penn Treebank, предоставили данные для обучения и оценки, которые превратили анализ в задачу, управляемую данными, что позволило статистическим, а затем и нейронным анализаторам обучаться на структурах, аннотированных человеком.
Clinical relevance
Синтаксический анализ поддерживает проверку грамматики, извлечение информации, ответы на вопросы и машинный перевод, выявляя, как слова группируются и соотносятся; структура зависимостей, в частности, широко используется в качестве входных данных для последующих семантических систем и систем извлечения.
History
Анализ основывался на формальных грамматиках Хомского; алгоритмы CKY (1960-е годы) и Эрли (1970) обеспечили эффективный контекстно-свободный анализ. Penn Treebank (1993) катализировал статистический анализ, а вероятностные, а затем и нейронные анализаторы постепенно улучшали точность и надежность на реальном тексте.
Key figures
- Noam Chomsky
- Tadao Kasami
- Jay Earley
- Mitchell P. Marcus
- Christopher D. Manning
Related topics
Seminal works
- marcus1993
- jurafsky2023
Frequently asked questions
- В чем разница между анализом составляющих и анализом зависимостей?
- Анализ составляющих группирует слова во вложенные фразы (такие как именные и глагольные фразы), создавая дерево составляющих. Анализ зависимостей вместо этого связывает каждое слово со словом, от которого оно зависит (его главой), создавая граф грамматических отношений. Оба метода фиксируют синтаксическую структуру, но акцентируют внимание на разных аспектах.
- Почему анализ сложен, несмотря на то, что грамматики хорошо определены?
- Предложения естественного языка очень неоднозначны: одно и то же предложение может иметь множество грамматически допустимых структур, и их число может быстро расти с увеличением длины предложения. Выбор предполагаемого анализа требует статистических или изученных предпочтений, а не только грамматики, что и делает анализ сложным.