Extracción de información
Transformar texto no estructurado en datos estructurados: detectar entidades nombradas, las relaciones entre ellas y los eventos en los que participan, para que los documentos puedan ser consultados y agregados.
Definition
La extracción de información es la identificación automática de hechos estructurados —entidades, relaciones y eventos— a partir de texto no estructurado en lenguaje natural.
Scope
Cubre la extracción de información estructurada del texto —reconocimiento de entidades nombradas, extracción de relaciones, extracción de eventos y llenado de plantillas y temporal. Aborda tanto los enfoques basados en reglas como los aprendidos y las tradiciones de evaluación establecidas por las tareas compartidas. Los modelos subyacentes de etiquetado de secuencias se tratan en el área de análisis sintáctico.
Core questions
- ¿Cómo se detectan y clasifican las entidades nombradas en el texto?
- ¿Cómo se extraen las relaciones y los eventos entre entidades?
- ¿Cómo las evaluaciones compartidas moldearon la tarea y sus métricas?
- ¿Cómo se comparan los métodos de extracción basados en reglas y los aprendidos?
Key concepts
- reconocimiento de entidades nombradas
- extracción de relaciones
- extracción de eventos
- llenado de plantillas
- campo aleatorio condicional
- supervisión distante
- población de ontologías
- campaña de evaluación
Key theories
- Extracción de información mediante llenado de plantillas
- Enmarcar la extracción como el llenado de plantillas estructuradas con entidades y relaciones encontradas en el texto, la formulación desarrollada en las Message Understanding Conferences.
- Extracción mediante etiquetado de secuencias
- Considerar la extracción de entidades y tramos como etiquetado de secuencias con modelos como campos aleatorios condicionales y etiquetadores neuronales sobre tokens.
History
La extracción de información fue moldeada por las Message Understanding Conferences de la década de 1990, que definieron las tareas de reconocimiento de entidades nombradas y llenado de plantillas, así como su evaluación. El campo pasó de patrones construidos manualmente a modelos estadísticos de secuencia, como los campos aleatorios condicionales, y luego a la extracción neuronal y supervisada a distancia a gran escala.
Debates
- Extracción supervisada versus supervisada a distancia
- Si confiar en datos costosos etiquetados manualmente o arrancar desde bases de conocimiento mediante supervisión distante, que escala pero introduce etiquetas ruidosas.
Key figures
- Ralph Grishman
- Beth Sundheim
- Andrew McCallum
Related topics
Seminal works
- grishman1996
- lafferty2001
Frequently asked questions
- ¿Qué es el reconocimiento de entidades nombradas?
- El reconocimiento de entidades nombradas encuentra y clasifica tramos de nombres propios en el texto, como personas, organizaciones y ubicaciones. Generalmente, es el primer paso en la extracción de relaciones y eventos de los documentos.