ScholarGate
Asistente

Extracción de información

Transformar texto no estructurado en datos estructurados: detectar entidades nombradas, las relaciones entre ellas y los eventos en los que participan, para que los documentos puedan ser consultados y agregados.

Encontrar tema con PaperMindPróximamenteFind papers & topics
Tools & resources
Descargar diapositivas
Learn & explore
VídeoPróximamente

Definition

La extracción de información es la identificación automática de hechos estructurados —entidades, relaciones y eventos— a partir de texto no estructurado en lenguaje natural.

Scope

Cubre la extracción de información estructurada del texto —reconocimiento de entidades nombradas, extracción de relaciones, extracción de eventos y llenado de plantillas y temporal. Aborda tanto los enfoques basados en reglas como los aprendidos y las tradiciones de evaluación establecidas por las tareas compartidas. Los modelos subyacentes de etiquetado de secuencias se tratan en el área de análisis sintáctico.

Core questions

  • ¿Cómo se detectan y clasifican las entidades nombradas en el texto?
  • ¿Cómo se extraen las relaciones y los eventos entre entidades?
  • ¿Cómo las evaluaciones compartidas moldearon la tarea y sus métricas?
  • ¿Cómo se comparan los métodos de extracción basados en reglas y los aprendidos?

Key concepts

  • reconocimiento de entidades nombradas
  • extracción de relaciones
  • extracción de eventos
  • llenado de plantillas
  • campo aleatorio condicional
  • supervisión distante
  • población de ontologías
  • campaña de evaluación

Key theories

Extracción de información mediante llenado de plantillas
Enmarcar la extracción como el llenado de plantillas estructuradas con entidades y relaciones encontradas en el texto, la formulación desarrollada en las Message Understanding Conferences.
Extracción mediante etiquetado de secuencias
Considerar la extracción de entidades y tramos como etiquetado de secuencias con modelos como campos aleatorios condicionales y etiquetadores neuronales sobre tokens.

History

La extracción de información fue moldeada por las Message Understanding Conferences de la década de 1990, que definieron las tareas de reconocimiento de entidades nombradas y llenado de plantillas, así como su evaluación. El campo pasó de patrones construidos manualmente a modelos estadísticos de secuencia, como los campos aleatorios condicionales, y luego a la extracción neuronal y supervisada a distancia a gran escala.

Debates

Extracción supervisada versus supervisada a distancia
Si confiar en datos costosos etiquetados manualmente o arrancar desde bases de conocimiento mediante supervisión distante, que escala pero introduce etiquetas ruidosas.

Key figures

  • Ralph Grishman
  • Beth Sundheim
  • Andrew McCallum

Related topics

Seminal works

  • grishman1996
  • lafferty2001

Frequently asked questions

¿Qué es el reconocimiento de entidades nombradas?
El reconocimiento de entidades nombradas encuentra y clasifica tramos de nombres propios en el texto, como personas, organizaciones y ubicaciones. Generalmente, es el primer paso en la extracción de relaciones y eventos de los documentos.

Methods for this concept

Related concepts