Morphologie Computationnelle
Modélisation de la structure interne des mots par machine — analyse, génération, racinisation, lemmatisation et segmentation en sous-mots — de la morphologie à états finis à l'encodage par paires d'octets utilisé par les systèmes neuronaux modernes.
Definition
La morphologie computationnelle est l'analyse et la génération algorithmiques des formes de mots en termes de leurs morphèmes constitutifs et de leurs caractéristiques morphologiques.
Scope
Couvre le traitement computationnel de la structure des mots : analyse et génération morphologiques avec des transducteurs à états finis, morphologie à deux niveaux, racinisation et lemmatisation, et segmentation en sous-mots basée sur les données telle que l'encodage par paires d'octets. Il aborde l'inflexion, la dérivation et la composition dans des langues typologiquement diverses. Le mécanisme sous-jacent des automates à états finis est détaillé dans la section des fondements.
Core questions
- Comment les alternances morphologiques sont-elles modélisées avec des transducteurs à états finis ?
- Quelle est la différence entre la racinisation et la lemmatisation ?
- Comment la segmentation en sous-mots gère-t-elle les mots rares et inconnus dans les modèles neuronaux ?
- Pourquoi la morphologie est-elle plus difficile pour les langues agglutinantes et templatiques ?
Key concepts
- morphème
- inflexion et dérivation
- morphologie à deux niveaux
- transducteur à états finis
- racinisation
- lemmatisation
- encodage par paires d'octets
- agglutination
Key theories
- Morphologie à deux niveaux
- Modèle de Koskenniemi reliant les formes de surface et lexicales des mots par des règles parallèles à états finis, permettant à une seule grammaire d'analyser et de générer des formes.
- Segmentation en sous-mots basée sur les données
- Apprentissage d'un vocabulaire de séquences de caractères fréquentes, comme dans l'encodage par paires d'octets, afin que les modèles neuronaux puissent représenter n'importe quel mot comme une séquence d'unités de sous-mots.
History
La morphologie à deux niveaux de Koskenniemi (1983) a établi les méthodes à états finis comme la norme pour le traitement morphologique, consolidée dans le manuel de Beesley et Karttunen. Avec l'essor des modèles neuronaux, les analyseurs morphologiques construits manuellement ont été complétés par une segmentation en sous-mots apprise, telle que l'encodage par paires d'octets, qui contourne la morphologie explicite tout en gérant les mots rares.
Debates
- Morphologie explicite versus unités de sous-mots
- La question de savoir si les systèmes neuronaux nécessitent une analyse morphologique linguistiquement informée ou si la segmentation statistique en sous-mots suffit ; la réponse semble dépendre du type de langue et de l'échelle des données.
Key figures
- Kimmo Koskenniemi
- Lauri Karttunen
- Kenneth Beesley
- Rico Sennrich
Related topics
Seminal works
- koskenniemi1983
- beesley2003
- sennrich2016
Frequently asked questions
- Quelle est la différence entre la racinisation et la lemmatisation ?
- La racinisation tronque grossièrement les affixes pour obtenir une racine commune (par exemple, 'studies' en 'studi'), tandis que la lemmatisation associe un mot à sa forme de dictionnaire en utilisant des connaissances morphologiques (par exemple, 'studies' en 'study').