Qu'est-ce que la reconnaissance d'entités nommées ?

La reconnaissance d'entités nommées identifie et classifie les étendues de noms propres dans le texte, telles que les personnes, les organisations et les lieux. Elle constitue généralement la première étape de l'extraction de relations et d'événements à partir de documents.

Extraction d'informations

Transformer le texte non structuré en données structurées : détecter les entités nommées, les relations entre elles et les événements auxquels elles participent, afin que les documents puissent être interrogés et agrégés.

Trouver un sujet avec PaperMindBientôtFind papers & topics

Tools & resources

Télécharger les diapositives

Learn & explore

VidéoBientôt

Definition

L'extraction d'informations est l'identification automatique de faits structurés — entités, relations et événements — à partir de texte en langage naturel non structuré.

Scope

Ce domaine couvre l'extraction d'informations structurées à partir de texte — reconnaissance d'entités nommées, extraction de relations, extraction d'événements, et remplissage temporel et de gabarits. Il aborde à la fois les approches basées sur des règles et celles par apprentissage, ainsi que les traditions d'évaluation établies par les tâches partagées. Les modèles de labellisation de séquences sous-jacents sont traités dans le domaine de l'analyse syntaxique.

Core questions

Comment les entités nommées sont-elles détectées et classifiées dans le texte ?
Comment les relations et les événements entre entités sont-ils extraits ?
Comment les évaluations partagées ont-elles façonné la tâche et ses métriques ?
Comment les méthodes d'extraction basées sur des règles et celles par apprentissage se comparent-elles ?

Key concepts

reconnaissance d'entités nommées
extraction de relations
extraction d'événements
remplissage de gabarits
champ aléatoire conditionnel
supervision distante
peuplement d'ontologies
campagne d'évaluation

Key theories

Extraction d'informations par remplissage de gabarits: Concevoir l'extraction comme le remplissage de gabarits structurés avec des entités et des relations trouvées dans le texte, une formulation développée lors des Message Understanding Conferences.
Extraction par labellisation de séquences: Considérer l'extraction d'entités et d'étendues comme une labellisation de séquences avec des modèles tels que les champs aléatoires conditionnels et les étiqueteurs neuronaux sur les jetons.

History

L'extraction d'informations a été façonnée par les Message Understanding Conferences des années 1990, qui ont défini les tâches de reconnaissance d'entités nommées et de remplissage de gabarits, ainsi que leur évaluation. Le domaine est passé des motifs construits manuellement aux modèles de séquences statistiques tels que les champs aléatoires conditionnels, puis à l'extraction neuronale et supervisée à distance à grande échelle.

Debates

Extraction supervisée versus extraction supervisée à distance: Faut-il s'appuyer sur des données coûteuses étiquetées manuellement ou amorcer à partir de bases de connaissances via la supervision distante, une approche qui permet une mise à l'échelle mais introduit des étiquettes bruitées.

Key figures

Ralph Grishman
Beth Sundheim
Andrew McCallum

Seminal works

grishman1996
lafferty2001

Frequently asked questions

Qu'est-ce que la reconnaissance d'entités nommées ?: La reconnaissance d'entités nommées identifie et classifie les étendues de noms propres dans le texte, telles que les personnes, les organisations et les lieux. Elle constitue généralement la première étape de l'extraction de relations et d'événements à partir de documents.