Extraction d'informations
Transformer le texte non structuré en données structurées : détecter les entités nommées, les relations entre elles et les événements auxquels elles participent, afin que les documents puissent être interrogés et agrégés.
Definition
L'extraction d'informations est l'identification automatique de faits structurés — entités, relations et événements — à partir de texte en langage naturel non structuré.
Scope
Ce domaine couvre l'extraction d'informations structurées à partir de texte — reconnaissance d'entités nommées, extraction de relations, extraction d'événements, et remplissage temporel et de gabarits. Il aborde à la fois les approches basées sur des règles et celles par apprentissage, ainsi que les traditions d'évaluation établies par les tâches partagées. Les modèles de labellisation de séquences sous-jacents sont traités dans le domaine de l'analyse syntaxique.
Core questions
- Comment les entités nommées sont-elles détectées et classifiées dans le texte ?
- Comment les relations et les événements entre entités sont-ils extraits ?
- Comment les évaluations partagées ont-elles façonné la tâche et ses métriques ?
- Comment les méthodes d'extraction basées sur des règles et celles par apprentissage se comparent-elles ?
Key concepts
- reconnaissance d'entités nommées
- extraction de relations
- extraction d'événements
- remplissage de gabarits
- champ aléatoire conditionnel
- supervision distante
- peuplement d'ontologies
- campagne d'évaluation
Key theories
- Extraction d'informations par remplissage de gabarits
- Concevoir l'extraction comme le remplissage de gabarits structurés avec des entités et des relations trouvées dans le texte, une formulation développée lors des Message Understanding Conferences.
- Extraction par labellisation de séquences
- Considérer l'extraction d'entités et d'étendues comme une labellisation de séquences avec des modèles tels que les champs aléatoires conditionnels et les étiqueteurs neuronaux sur les jetons.
History
L'extraction d'informations a été façonnée par les Message Understanding Conferences des années 1990, qui ont défini les tâches de reconnaissance d'entités nommées et de remplissage de gabarits, ainsi que leur évaluation. Le domaine est passé des motifs construits manuellement aux modèles de séquences statistiques tels que les champs aléatoires conditionnels, puis à l'extraction neuronale et supervisée à distance à grande échelle.
Debates
- Extraction supervisée versus extraction supervisée à distance
- Faut-il s'appuyer sur des données coûteuses étiquetées manuellement ou amorcer à partir de bases de connaissances via la supervision distante, une approche qui permet une mise à l'échelle mais introduit des étiquettes bruitées.
Key figures
- Ralph Grishman
- Beth Sundheim
- Andrew McCallum
Related topics
Seminal works
- grishman1996
- lafferty2001
Frequently asked questions
- Qu'est-ce que la reconnaissance d'entités nommées ?
- La reconnaissance d'entités nommées identifie et classifie les étendues de noms propres dans le texte, telles que les personnes, les organisations et les lieux. Elle constitue généralement la première étape de l'extraction de relations et d'événements à partir de documents.