Extracción de Información
La extracción de información es la tarea de identificar automáticamente información estructurada —entidades, relaciones y eventos— dentro de texto no estructurado en lenguaje natural.
Definition
La extracción de información convierte texto no estructurado en representaciones estructuradas al detectar y clasificar menciones de entidades, las relaciones entre ellas y los eventos en los que participan, a menudo para poblar una base de datos o una base de conocimiento.
Scope
Este tema abarca la extracción de hechos estructurados a partir de texto: reconocimiento de entidades nombradas, extracción de relaciones, extracción de eventos, resolución de correferencias y la población de plantillas o bases de conocimiento. Aborda enfoques basados en reglas, etiquetado de secuencias estadísticas, y enfoques supervisados y débilmente supervisados, así como la evaluación de la extracción mediante precisión y exhaustividad (recall). Los métodos generales de aprendizaje automático utilizados para entrenar extractores pertenecen al subcampo del aprendizaje automático; aquí el énfasis está en las tareas de extracción y sus desafíos lingüísticos.
Core questions
- ¿Cómo se detectan y clasifican en el texto las menciones de entidades como personas, organizaciones y ubicaciones?
- ¿Cómo se identifican y extraen las relaciones entre entidades?
- ¿Cómo se reconocen los eventos y sus participantes, y cómo se resuelve la correferencia?
- ¿Cómo se evalúa el rendimiento de la extracción y qué compensaciones surgen entre precisión y exhaustividad?
Key concepts
- reconocimiento de entidades nombradas
- extracción de relaciones
- extracción de eventos
- resolución de correferencias
- etiquetado de secuencias BIO
- llenado de plantillas
- población de bases de conocimiento
- precisión y exhaustividad
Key theories
- Reconocimiento de entidades nombradas como etiquetado de secuencias
- La identificación de menciones de entidades se enmarca comúnmente como el etiquetado de cada token con una etiqueta (por ejemplo, utilizando un esquema BIO), resuelto por modelos de secuencia que explotan el contexto para marcar tramos y sus tipos.
- Extracción de relaciones y eventos
- Más allá de las entidades, la extracción de información identifica cómo se relacionan las entidades y qué eventos ocurren, llenando plantillas estructuradas; este marco orientado a tareas fue cristalizado por las Conferencias de Comprensión de Mensajes.
- Población de bases de conocimiento
- Las entidades y relaciones extraídas pueden agregarse para construir o extender una base de conocimiento, vinculando menciones a entidades canónicas y acumulando hechos de grandes colecciones de texto.
Clinical relevance
La extracción de información convierte el texto en datos consultables para aplicaciones como la minería de literatura biomédica, el análisis financiero y de noticias, la construcción de grafos de conocimiento y la población de bases de datos a partir de documentos, haciendo que grandes volúmenes de texto no estructurado sean utilizables por sistemas posteriores.
History
La extracción de información fue moldeada por las Conferencias de Comprensión de Mensajes (MUC) de finales de los años 80 y 90, que definieron tareas como el reconocimiento de entidades nombradas y el llenado de plantillas, e introdujeron la evaluación estandarizada. El campo pasó de reglas construidas manualmente a modelos de secuencias estadísticas y, posteriormente, a métodos neuronales, manteniendo su estructura de tareas.
Key figures
- Ralph Grishman
- Beth Sundheim
- Christopher D. Manning
- Daniel Jurafsky
Related topics
Seminal works
- grishman1996
- jurafsky2023
Frequently asked questions
- ¿Qué es el reconocimiento de entidades nombradas?
- El reconocimiento de entidades nombradas es la tarea de encontrar y clasificar tramos de texto que nombran entidades del mundo real, como personas, organizaciones, ubicaciones y fechas. Generalmente es un primer paso en la extracción de información, ya que muchas relaciones y eventos se expresan en términos de estas entidades.
- ¿Cómo se evalúa la extracción de información?
- La extracción se evalúa típicamente con precisión (qué fracción de los elementos extraídos son correctos) y exhaustividad (qué fracción de los elementos correctos fueron extraídos), a menudo combinadas en una medida F. Esto refleja la compensación entre extraer demasiado poco y extraer información incorrecta.