ScholarGate
Assistente

Extração de Informação

A extração de informação é a tarefa de identificar automaticamente informação estruturada — entidades, relações e eventos — dentro de texto não estruturado em linguagem natural.

Encontrar tema com PaperMindEm breveFind papers & topics
Tools & resources
Baixar slides
Learn & explore
VídeoEm breve

Definition

A extração de informação converte texto não estruturado em representações estruturadas, detetando e classificando menções de entidades, as relações entre elas e os eventos em que participam, frequentemente para preencher uma base de dados ou base de conhecimento.

Scope

Este tópico abrange a extração de factos estruturados a partir de texto: reconhecimento de entidades nomeadas, extração de relações, extração de eventos, resolução de correferência e o preenchimento de modelos ou bases de conhecimento. Aborda abordagens baseadas em regras, rotulagem estatística de sequências, e abordagens supervisionadas e supervisionadas à distância, bem como a avaliação da extração por precisão e recall. Os métodos gerais de aprendizagem automática utilizados para treinar extratores pertencem ao subcampo da aprendizagem automática; aqui a ênfase está nas tarefas de extração e nos seus desafios linguísticos.

Core questions

  • Como são detetadas e classificadas em texto as menções de entidades como pessoas, organizações e locais?
  • Como são identificadas e extraídas as relações entre entidades?
  • Como são reconhecidos os eventos e os seus participantes, e como é resolvida a correferência?
  • Como é avaliado o desempenho da extração, e que compromissos surgem entre precisão e recall?

Key concepts

  • reconhecimento de entidades nomeadas
  • extração de relações
  • extração de eventos
  • resolução de correferência
  • rotulagem de sequência BIO
  • preenchimento de modelos
  • preenchimento de base de conhecimento
  • precisão e recall

Key theories

Reconhecimento de entidades nomeadas como rotulagem de sequência
A identificação de menções de entidades é geralmente enquadrada como a rotulagem de cada token com uma etiqueta (por exemplo, usando um esquema BIO), resolvida por modelos de sequência que exploram o contexto para marcar extensões e os seus tipos.
Extração de relações e eventos
Para além das entidades, a extração de informação identifica como as entidades se relacionam e que eventos ocorrem, preenchendo modelos estruturados; este enquadramento orientado para a tarefa foi cristalizado pelas Message Understanding Conferences.
Preenchimento de base de conhecimento
Entidades e relações extraídas podem ser agregadas para construir ou estender uma base de conhecimento, ligando menções a entidades canónicas e acumulando factos de grandes coleções de texto.

Clinical relevance

A extração de informação transforma texto em dados consultáveis para aplicações como mineração de literatura biomédica, análise financeira e de notícias, construção de grafos de conhecimento e preenchimento de bases de dados a partir de documentos, tornando grandes volumes de texto não estruturado utilizáveis por sistemas a jusante.

History

A extração de informação foi moldada pelas Message Understanding Conferences (MUC) do final dos anos 80 e 90, que definiram tarefas como o reconhecimento de entidades nomeadas e o preenchimento de modelos, e introduziram a avaliação padronizada. O campo evoluiu de regras construídas manualmente para modelos estatísticos de sequência e, posteriormente, métodos neurais, mantendo a sua estrutura de tarefas.

Key figures

  • Ralph Grishman
  • Beth Sundheim
  • Christopher D. Manning
  • Daniel Jurafsky

Related topics

Seminal works

  • grishman1996
  • jurafsky2023

Frequently asked questions

O que é o reconhecimento de entidades nomeadas?
O reconhecimento de entidades nomeadas é a tarefa de encontrar e classificar extensões de texto que nomeiam entidades do mundo real, como pessoas, organizações, locais e datas. É geralmente um primeiro passo na extração de informação, uma vez que muitas relações e eventos são expressos em termos destas entidades.
Como é avaliada a extração de informação?
A extração é tipicamente avaliada com precisão (que fração dos itens extraídos estão corretos) e recall (que fração dos itens corretos foram extraídos), frequentemente combinados numa medida F. Isso reflete o compromisso entre extrair muito pouco e extrair informação incorreta.

Methods for this concept

Related concepts