Extração de Informação
Transformar texto não estruturado em dados estruturados: detetar entidades nomeadas, as relações entre elas e os eventos em que participam, para que os documentos possam ser consultados e agregados.
Definition
A extração de informação é a identificação automática de factos estruturados — entidades, relações e eventos — a partir de texto não estruturado em linguagem natural.
Scope
Abrange a extração de informação estruturada de texto — reconhecimento de entidades nomeadas, extração de relações, extração de eventos e preenchimento temporal e de modelos. Aborda tanto abordagens baseadas em regras quanto abordagens aprendidas e as tradições de avaliação estabelecidas por tarefas partilhadas. Os modelos subjacentes de rotulagem de sequência são abordados na área de análise sintática.
Core questions
- Como são detetadas e classificadas as entidades nomeadas no texto?
- Como são extraídas as relações e os eventos entre entidades?
- Como as avaliações partilhadas moldaram a tarefa e as suas métricas?
- Como se comparam os métodos de extração baseados em regras e os aprendidos?
Key concepts
- reconhecimento de entidades nomeadas
- extração de relações
- extração de eventos
- preenchimento de modelos
- campo aleatório condicional
- supervisão à distância
- população de ontologias
- campanha de avaliação
Key theories
- Extração de informação por preenchimento de modelos
- Enquadrar a extração como o preenchimento de modelos estruturados com entidades e relações encontradas no texto, a formulação desenvolvida nas Message Understanding Conferences.
- Extração por rotulagem de sequência
- Considerar a extração de entidades e spans como rotulagem de sequência com modelos como campos aleatórios condicionais e etiquetadores neurais sobre tokens.
History
A extração de informação foi moldada pelas Message Understanding Conferences da década de 1990, que definiram tarefas de reconhecimento de entidades nomeadas e preenchimento de modelos, bem como a sua avaliação. O campo evoluiu de padrões construídos manualmente para modelos estatísticos de sequência, como campos aleatórios condicionais, e depois para a extração neural e supervisionada à distância em larga escala.
Debates
- Extração supervisionada versus supervisionada à distância
- Se deve depender de dados rotulados manualmente, que são dispendiosos, ou de bootstrapping a partir de bases de conhecimento via supervisão à distância, que escala, mas introduz rótulos ruidosos.
Key figures
- Ralph Grishman
- Beth Sundheim
- Andrew McCallum
Related topics
Seminal works
- grishman1996
- lafferty2001
Frequently asked questions
- O que é o reconhecimento de entidades nomeadas?
- O reconhecimento de entidades nomeadas encontra e classifica spans de nomes próprios no texto, como pessoas, organizações e localizações. Geralmente, é o primeiro passo na extração de relações e eventos de documentos.