ScholarGate
Ассистент

Регулярные выражения и конечно-автоматные методы

Практические методы, основанные на регулярных языках — сопоставление с образцом с помощью регулярных выражений и отображение строк с помощью конечно-автоматных преобразователей — которые эффективно справляются с токенизацией, нормализацией и морфологическим анализом.

Найти тему в PaperMindСкороFind papers & topics
Tools & resources
Скачать слайды
Learn & explore
ВидеоСкоро

Definition

Конечно-автоматные методы — это методы обработки языка, в которых шаблоны и отображения выражаются в виде регулярных выражений или конечно-автоматных автоматов и преобразователей, что гарантирует эффективное распознавание за линейное время.

Scope

Охватывает регулярные выражения как язык шаблонов для строк, конечно-автоматные автоматы и преобразователи как их вычислительную реализацию, а также их применение к нормализации текста, токенизации, проверке орфографии и вычислительной морфологии. Включает взвешенные конечно-автоматные методы, используемые в обработке речи и поверхностной обработке. Полная фонологическая теория и глубокий синтаксический анализ выходят за рамки данного рассмотрения.

Core questions

  • Как регулярные выражения могут точно специфицировать и извлекать текстовые шаблоны?
  • Как конечно-автоматные преобразователи отображают поверхностные формы в лексический анализ, как, например, в морфологии?
  • Почему конечно-автоматные методы предпочтительны для токенизации и нормализации?

Key concepts

  • регулярное выражение
  • конечно-автоматный преобразователь
  • токенизация
  • нормализация текста
  • морфологический анализ
  • двухуровневая морфология
  • взвешенные автоматы
  • редакционное расстояние

Key theories

Регулярные модели морфологии и фонологии
Результат, согласно которому фонологические правила перезаписи и морфологические чередования могут быть скомпилированы в конечно-автоматные преобразователи, что делает анализ и генерацию единой эффективной системой.
Эквивалентность регулярных выражений и конечных автоматов
Регулярные выражения, регулярные грамматики и конечные автоматы описывают в точности регулярные языки, поэтому декларативный шаблон может быть скомпилирован в эффективный распознаватель.

History

Регулярные выражения вошли в вычислительную технику из работ Клини и стали повсеместно использоваться в текстовых инструментах. В 1980-х годах двухуровневая морфология Коскенниеми и компиляция фонологических правил в преобразователи Капланом и Кеем утвердили конечно-автоматную технологию как основной инструмент морфологической обработки, подход, консолидированный в справочнике Бисли и Карттунена.

Debates

Насколько масштабируемы конечно-автоматные методы?
Конечно-автоматные методы чрезвычайно эффективны, но ограничены регулярными явлениями; дискуссия касается того, какие задачи обработки языка лучше всего решаются ими по сравнению с более богатыми статистическими или нейронными моделями.

Key figures

  • Martin Kay
  • Ronald Kaplan
  • Kimmo Koskenniemi
  • Lauri Karttunen

Related topics

Seminal works

  • kaplan1994
  • beesley2003

Frequently asked questions

Почему для морфологии используется конечно-автоматный преобразователь вместо простой таблицы поиска?
Преобразователь компактно кодирует систематические чередования и может анализировать или генерировать словоформы, которые он никогда не видел, тогда как таблица хранит только те формы, которые явно в ней перечислены.

Methods for this concept

Related concepts