O que é o reconhecimento de entidades nomeadas?

O reconhecimento de entidades nomeadas é a tarefa de encontrar e classificar extensões de texto que nomeiam entidades do mundo real, como pessoas, organizações, locais e datas. É geralmente um primeiro passo na extração de informação, uma vez que muitas relações e eventos são expressos em termos destas entidades.

Como é avaliada a extração de informação?

A extração é tipicamente avaliada com precisão (que fração dos itens extraídos estão corretos) e recall (que fração dos itens corretos foram extraídos), frequentemente combinados numa medida F. Isso reflete o compromisso entre extrair muito pouco e extrair informação incorreta.

Extração de Informação

A extração de informação é a tarefa de identificar automaticamente informação estruturada — entidades, relações e eventos — dentro de texto não estruturado em linguagem natural.

Encontrar tema com PaperMindEm breveFind papers & topics

Tools & resources

Baixar slides

Learn & explore

VídeoEm breve

Definition

A extração de informação converte texto não estruturado em representações estruturadas, detetando e classificando menções de entidades, as relações entre elas e os eventos em que participam, frequentemente para preencher uma base de dados ou base de conhecimento.

Scope

Este tópico abrange a extração de factos estruturados a partir de texto: reconhecimento de entidades nomeadas, extração de relações, extração de eventos, resolução de correferência e o preenchimento de modelos ou bases de conhecimento. Aborda abordagens baseadas em regras, rotulagem estatística de sequências, e abordagens supervisionadas e supervisionadas à distância, bem como a avaliação da extração por precisão e recall. Os métodos gerais de aprendizagem automática utilizados para treinar extratores pertencem ao subcampo da aprendizagem automática; aqui a ênfase está nas tarefas de extração e nos seus desafios linguísticos.

Core questions

Como são detetadas e classificadas em texto as menções de entidades como pessoas, organizações e locais?
Como são identificadas e extraídas as relações entre entidades?
Como são reconhecidos os eventos e os seus participantes, e como é resolvida a correferência?
Como é avaliado o desempenho da extração, e que compromissos surgem entre precisão e recall?

Key concepts

reconhecimento de entidades nomeadas
extração de relações
extração de eventos
resolução de correferência
rotulagem de sequência BIO
preenchimento de modelos
preenchimento de base de conhecimento
precisão e recall

Key theories

Reconhecimento de entidades nomeadas como rotulagem de sequência: A identificação de menções de entidades é geralmente enquadrada como a rotulagem de cada token com uma etiqueta (por exemplo, usando um esquema BIO), resolvida por modelos de sequência que exploram o contexto para marcar extensões e os seus tipos.
Extração de relações e eventos: Para além das entidades, a extração de informação identifica como as entidades se relacionam e que eventos ocorrem, preenchendo modelos estruturados; este enquadramento orientado para a tarefa foi cristalizado pelas Message Understanding Conferences.
Preenchimento de base de conhecimento: Entidades e relações extraídas podem ser agregadas para construir ou estender uma base de conhecimento, ligando menções a entidades canónicas e acumulando factos de grandes coleções de texto.

Clinical relevance

A extração de informação transforma texto em dados consultáveis para aplicações como mineração de literatura biomédica, análise financeira e de notícias, construção de grafos de conhecimento e preenchimento de bases de dados a partir de documentos, tornando grandes volumes de texto não estruturado utilizáveis por sistemas a jusante.

History

A extração de informação foi moldada pelas Message Understanding Conferences (MUC) do final dos anos 80 e 90, que definiram tarefas como o reconhecimento de entidades nomeadas e o preenchimento de modelos, e introduziram a avaliação padronizada. O campo evoluiu de regras construídas manualmente para modelos estatísticos de sequência e, posteriormente, métodos neurais, mantendo a sua estrutura de tarefas.

Key figures

Ralph Grishman
Beth Sundheim
Christopher D. Manning
Daniel Jurafsky

Seminal works

grishman1996
jurafsky2023

Frequently asked questions

O que é o reconhecimento de entidades nomeadas?: O reconhecimento de entidades nomeadas é a tarefa de encontrar e classificar extensões de texto que nomeiam entidades do mundo real, como pessoas, organizações, locais e datas. É geralmente um primeiro passo na extração de informação, uma vez que muitas relações e eventos são expressos em termos destas entidades.
Como é avaliada a extração de informação?: A extração é tipicamente avaliada com precisão (que fração dos itens extraídos estão corretos) e recall (que fração dos itens corretos foram extraídos), frequentemente combinados numa medida F. Isso reflete o compromisso entre extrair muito pouco e extrair informação incorreta.