O que é o reconhecimento de entidades nomeadas?

O reconhecimento de entidades nomeadas encontra e classifica spans de nomes próprios no texto, como pessoas, organizações e localizações. Geralmente, é o primeiro passo na extração de relações e eventos de documentos.

Extração de Informação

Transformar texto não estruturado em dados estruturados: detetar entidades nomeadas, as relações entre elas e os eventos em que participam, para que os documentos possam ser consultados e agregados.

Encontrar tema com PaperMindEm breveFind papers & topics

Tools & resources

Baixar slides

Learn & explore

VídeoEm breve

Definition

A extração de informação é a identificação automática de factos estruturados — entidades, relações e eventos — a partir de texto não estruturado em linguagem natural.

Scope

Abrange a extração de informação estruturada de texto — reconhecimento de entidades nomeadas, extração de relações, extração de eventos e preenchimento temporal e de modelos. Aborda tanto abordagens baseadas em regras quanto abordagens aprendidas e as tradições de avaliação estabelecidas por tarefas partilhadas. Os modelos subjacentes de rotulagem de sequência são abordados na área de análise sintática.

Core questions

Como são detetadas e classificadas as entidades nomeadas no texto?
Como são extraídas as relações e os eventos entre entidades?
Como as avaliações partilhadas moldaram a tarefa e as suas métricas?
Como se comparam os métodos de extração baseados em regras e os aprendidos?

Key concepts

reconhecimento de entidades nomeadas
extração de relações
extração de eventos
preenchimento de modelos
campo aleatório condicional
supervisão à distância
população de ontologias
campanha de avaliação

Key theories

Extração de informação por preenchimento de modelos: Enquadrar a extração como o preenchimento de modelos estruturados com entidades e relações encontradas no texto, a formulação desenvolvida nas Message Understanding Conferences.
Extração por rotulagem de sequência: Considerar a extração de entidades e spans como rotulagem de sequência com modelos como campos aleatórios condicionais e etiquetadores neurais sobre tokens.

History

A extração de informação foi moldada pelas Message Understanding Conferences da década de 1990, que definiram tarefas de reconhecimento de entidades nomeadas e preenchimento de modelos, bem como a sua avaliação. O campo evoluiu de padrões construídos manualmente para modelos estatísticos de sequência, como campos aleatórios condicionais, e depois para a extração neural e supervisionada à distância em larga escala.

Debates

Extração supervisionada versus supervisionada à distância: Se deve depender de dados rotulados manualmente, que são dispendiosos, ou de bootstrapping a partir de bases de conhecimento via supervisão à distância, que escala, mas introduz rótulos ruidosos.

Key figures

Ralph Grishman
Beth Sundheim
Andrew McCallum

Seminal works

grishman1996
lafferty2001

Frequently asked questions

O que é o reconhecimento de entidades nomeadas?: O reconhecimento de entidades nomeadas encontra e classifica spans de nomes próprios no texto, como pessoas, organizações e localizações. Geralmente, é o primeiro passo na extração de relações e eventos de documentos.