ScholarGate
Assistente

Extração de Informação

Transformar texto não estruturado em dados estruturados: detetar entidades nomeadas, as relações entre elas e os eventos em que participam, para que os documentos possam ser consultados e agregados.

Encontrar tema com PaperMindEm breveFind papers & topics
Tools & resources
Baixar slides
Learn & explore
VídeoEm breve

Definition

A extração de informação é a identificação automática de factos estruturados — entidades, relações e eventos — a partir de texto não estruturado em linguagem natural.

Scope

Abrange a extração de informação estruturada de texto — reconhecimento de entidades nomeadas, extração de relações, extração de eventos e preenchimento temporal e de modelos. Aborda tanto abordagens baseadas em regras quanto abordagens aprendidas e as tradições de avaliação estabelecidas por tarefas partilhadas. Os modelos subjacentes de rotulagem de sequência são abordados na área de análise sintática.

Core questions

  • Como são detetadas e classificadas as entidades nomeadas no texto?
  • Como são extraídas as relações e os eventos entre entidades?
  • Como as avaliações partilhadas moldaram a tarefa e as suas métricas?
  • Como se comparam os métodos de extração baseados em regras e os aprendidos?

Key concepts

  • reconhecimento de entidades nomeadas
  • extração de relações
  • extração de eventos
  • preenchimento de modelos
  • campo aleatório condicional
  • supervisão à distância
  • população de ontologias
  • campanha de avaliação

Key theories

Extração de informação por preenchimento de modelos
Enquadrar a extração como o preenchimento de modelos estruturados com entidades e relações encontradas no texto, a formulação desenvolvida nas Message Understanding Conferences.
Extração por rotulagem de sequência
Considerar a extração de entidades e spans como rotulagem de sequência com modelos como campos aleatórios condicionais e etiquetadores neurais sobre tokens.

History

A extração de informação foi moldada pelas Message Understanding Conferences da década de 1990, que definiram tarefas de reconhecimento de entidades nomeadas e preenchimento de modelos, bem como a sua avaliação. O campo evoluiu de padrões construídos manualmente para modelos estatísticos de sequência, como campos aleatórios condicionais, e depois para a extração neural e supervisionada à distância em larga escala.

Debates

Extração supervisionada versus supervisionada à distância
Se deve depender de dados rotulados manualmente, que são dispendiosos, ou de bootstrapping a partir de bases de conhecimento via supervisão à distância, que escala, mas introduz rótulos ruidosos.

Key figures

  • Ralph Grishman
  • Beth Sundheim
  • Andrew McCallum

Related topics

Seminal works

  • grishman1996
  • lafferty2001

Frequently asked questions

O que é o reconhecimento de entidades nomeadas?
O reconhecimento de entidades nomeadas encontra e classifica spans de nomes próprios no texto, como pessoas, organizações e localizações. Geralmente, é o primeiro passo na extração de relações e eventos de documentos.

Methods for this concept

Related concepts