ScholarGate
Assistant

Fondements de la linguistique computationnelle

Les bases mathématiques et méthodologiques de la linguistique computationnelle : grammaires formelles, automates, techniques à états finis, modèles de langage probabilistes et les pratiques d'évaluation qui permettent de comparer rigoureusement les systèmes.

Trouver un sujet avec PaperMindBientôtFind papers & topics
Tools & resources
Télécharger les diapositives
Learn & explore
VidéoBientôt

Definition

Les fondements de la linguistique computationnelle constituent l'étude des primitives formelles, algorithmiques et statistiques utilisées pour représenter et traiter le langage naturel par machine.

Scope

Ce domaine couvre les abstractions sur lesquelles sont construits les traitements computationnels du langage. Il inclut la hiérarchie de Chomsky des langages formels et les automates qui les reconnaissent, les expressions régulières et les transducteurs à états finis comme outils pratiques pour la tokenisation et la morphologie, les modèles de langage n-grammes et probabilistes, ainsi que l'appareillage expérimental — corpus, annotation, divisions entraînement/test, et métriques d'évaluation — qui sous-tend le travail empirique. Il exclut les applications aval spécifiques et l'analyse syntaxique profonde, qui sont traitées dans leurs propres domaines.

Sub-topics

Core questions

  • Quelles classes de langages formels existent, et quels automates les reconnaissent ?
  • Comment les méthodes à états finis peuvent-elles modéliser efficacement la tokenisation, l'orthographe et la morphologie ?
  • Comment attribue-t-on des probabilités aux séquences de mots, et en quoi cela est-il utile ?
  • Comment les systèmes de traitement du langage devraient-ils être évalués afin que les résultats soient comparables et reproductibles ?

Key concepts

  • hiérarchie de Chomsky
  • automate à états finis
  • expression régulière
  • grammaire hors contexte
  • modèle n-gramme
  • lissage
  • perplexité
  • corpus et annotation

Key theories

Hiérarchie de Chomsky
Une hiérarchie d'inclusion de classes de langages formels (réguliers, hors contexte, contextuels, récursivement énumérables), chacune liée à une classe de grammaire et à une machine abstraite, qui définit la puissance de calcul nécessaire pour décrire les phénomènes du langage naturel.
Modélisation probabiliste du langage
Traiter le langage comme un processus stochastique et estimer la probabilité des séquences de mots, classiquement via des modèles n-grammes avec lissage, fournissant une base pour la reconnaissance vocale, la correction orthographique et la génération.

History

La linguistique computationnelle a hérité son noyau formel des travaux des années 1950 sur la théorie des langages formels (Chomsky) et la théorie de l'information (Shannon), qui ont conjointement suggéré à la fois les grammaires symboliques et les modèles probabilistes du langage. Les méthodes à états finis se sont développées dans les années 1980 comme outils efficaces pour la morphologie et la phonologie, tandis que la révolution statistique des années 1990, documentée par Manning et Schütze, a fait de la modélisation probabiliste basée sur corpus le paradigme empirique dominant.

Debates

Grammaires symboliques versus modèles statistiques
La question de savoir si le langage naturel est mieux appréhendé par des règles formelles construites manuellement ou par des distributions de probabilité estimées à partir de données ; le domaine a largement convergé vers des approches hybrides et basées sur les données, tout en conservant les grammaires formelles comme outils analytiques.

Key figures

  • Noam Chomsky
  • Claude Shannon
  • Daniel Jurafsky
  • James H. Martin
  • Christopher Manning

Related topics

Seminal works

  • chomsky1956
  • manning1999
  • jurafsky2025

Frequently asked questions

Pourquoi les linguistes computationnels s'intéressent-ils à la hiérarchie de Chomsky ?
Elle indique le mécanisme computationnel minimal requis par un phénomène : les motifs réguliers peuvent être traités par des outils à états finis rapides, tandis que des phénomènes comme les propositions imbriquées nécessitent au moins une puissance hors contexte. Choisir le bon niveau permet de maintenir les systèmes à la fois adéquats et efficaces.
La modélisation du langage est-elle la même chose qu'un grand modèle de langage ?
Ils partagent la même tâche fondamentale — attribuer des probabilités aux séquences de mots — mais les modèles de langage classiques étaient des compteurs n-grammes, tandis que les grands modèles de langage modernes utilisent des réseaux neuronaux. L'idée fondamentale est identique ; la méthode d'estimation diffère.

Methods for this concept

Related concepts