Extração de Informação
A extração de informação é a tarefa de identificar automaticamente informação estruturada — entidades, relações e eventos — dentro de texto não estruturado em linguagem natural.
Definition
A extração de informação converte texto não estruturado em representações estruturadas, detetando e classificando menções de entidades, as relações entre elas e os eventos em que participam, frequentemente para preencher uma base de dados ou base de conhecimento.
Scope
Este tópico abrange a extração de factos estruturados a partir de texto: reconhecimento de entidades nomeadas, extração de relações, extração de eventos, resolução de correferência e o preenchimento de modelos ou bases de conhecimento. Aborda abordagens baseadas em regras, rotulagem estatística de sequências, e abordagens supervisionadas e supervisionadas à distância, bem como a avaliação da extração por precisão e recall. Os métodos gerais de aprendizagem automática utilizados para treinar extratores pertencem ao subcampo da aprendizagem automática; aqui a ênfase está nas tarefas de extração e nos seus desafios linguísticos.
Core questions
- Como são detetadas e classificadas em texto as menções de entidades como pessoas, organizações e locais?
- Como são identificadas e extraídas as relações entre entidades?
- Como são reconhecidos os eventos e os seus participantes, e como é resolvida a correferência?
- Como é avaliado o desempenho da extração, e que compromissos surgem entre precisão e recall?
Key concepts
- reconhecimento de entidades nomeadas
- extração de relações
- extração de eventos
- resolução de correferência
- rotulagem de sequência BIO
- preenchimento de modelos
- preenchimento de base de conhecimento
- precisão e recall
Key theories
- Reconhecimento de entidades nomeadas como rotulagem de sequência
- A identificação de menções de entidades é geralmente enquadrada como a rotulagem de cada token com uma etiqueta (por exemplo, usando um esquema BIO), resolvida por modelos de sequência que exploram o contexto para marcar extensões e os seus tipos.
- Extração de relações e eventos
- Para além das entidades, a extração de informação identifica como as entidades se relacionam e que eventos ocorrem, preenchendo modelos estruturados; este enquadramento orientado para a tarefa foi cristalizado pelas Message Understanding Conferences.
- Preenchimento de base de conhecimento
- Entidades e relações extraídas podem ser agregadas para construir ou estender uma base de conhecimento, ligando menções a entidades canónicas e acumulando factos de grandes coleções de texto.
Clinical relevance
A extração de informação transforma texto em dados consultáveis para aplicações como mineração de literatura biomédica, análise financeira e de notícias, construção de grafos de conhecimento e preenchimento de bases de dados a partir de documentos, tornando grandes volumes de texto não estruturado utilizáveis por sistemas a jusante.
History
A extração de informação foi moldada pelas Message Understanding Conferences (MUC) do final dos anos 80 e 90, que definiram tarefas como o reconhecimento de entidades nomeadas e o preenchimento de modelos, e introduziram a avaliação padronizada. O campo evoluiu de regras construídas manualmente para modelos estatísticos de sequência e, posteriormente, métodos neurais, mantendo a sua estrutura de tarefas.
Key figures
- Ralph Grishman
- Beth Sundheim
- Christopher D. Manning
- Daniel Jurafsky
Related topics
Seminal works
- grishman1996
- jurafsky2023
Frequently asked questions
- O que é o reconhecimento de entidades nomeadas?
- O reconhecimento de entidades nomeadas é a tarefa de encontrar e classificar extensões de texto que nomeiam entidades do mundo real, como pessoas, organizações, locais e datas. É geralmente um primeiro passo na extração de informação, uma vez que muitas relações e eventos são expressos em termos destas entidades.
- Como é avaliada a extração de informação?
- A extração é tipicamente avaliada com precisão (que fração dos itens extraídos estão corretos) e recall (que fração dos itens corretos foram extraídos), frequentemente combinados numa medida F. Isso reflete o compromisso entre extrair muito pouco e extrair informação incorreta.