ScholarGate
Asistente

Etiquetado de partes de la oración y etiquetado de secuencias

Asignar una etiqueta a cada token en una oración —su parte de la oración, tipo de entidad nombrada o etiqueta de fragmento— utilizando modelos de secuencia probabilísticos como los modelos ocultos de Markov y los campos aleatorios condicionales.

Encontrar tema con PaperMindPróximamenteFind papers & topics
Tools & resources
Descargar diapositivas
Learn & explore
VídeoPróximamente

Definition

El etiquetado de secuencias es la tarea de asignar una etiqueta categórica a cada elemento de una secuencia de entrada, siendo el etiquetado de partes de la oración su instancia canónica.

Scope

Cubre las tareas de etiquetado de secuencias centrales para el análisis superficial: etiquetado de partes de la oración, reconocimiento de entidades nombradas y fragmentación (chunking). Incluye los modelos estándar —modelos ocultos de Markov, modelos de Markov de máxima entropía, campos aleatorios condicionales y etiquetadores de secuencia neuronales— y conjuntos de etiquetas como el Penn Treebank y Universal POS. El análisis sintáctico completo se cubre en temas relacionados.

Core questions

  • ¿Cómo asignan los modelos ocultos de Markov la secuencia de etiquetas más probable?
  • ¿Por qué los campos aleatorios condicionales superan a los modelos normalizados localmente?
  • ¿Cómo se diseñan y estandarizan los conjuntos de etiquetas en diferentes idiomas?
  • ¿Cómo apoya el etiquetado de secuencias el análisis sintáctico y la extracción posteriores?

Key concepts

  • etiqueta de parte de la oración
  • modelo oculto de Markov
  • algoritmo de Viterbi
  • campo aleatorio condicional
  • reconocimiento de entidades nombradas
  • fragmentación (chunking)
  • conjunto de etiquetas (tagset)
  • codificación BIO

Key theories

Etiquetado con modelos ocultos de Markov
Modelar una secuencia de etiquetas como una cadena de Markov que emite palabras observadas, con el algoritmo de Viterbi recuperando la secuencia de etiquetas más probable de manera eficiente.
Campos aleatorios condicionales
Modelos discriminativos globalmente normalizados para el etiquetado de secuencias que condicionan la entrada completa y evitan el sesgo de etiqueta de los modelos normalizados localmente.

History

El etiquetado POS fue un éxito temprano del PNL estadístico una vez que el Penn Treebank (1993) proporcionó grandes datos anotados. Los etiquetadores de modelos ocultos de Markov dieron paso a los modelos discriminativos de máxima entropía y de campos aleatorios condicionales alrededor de 2001, que a su vez fueron absorbidos por los etiquetadores de secuencia neuronales en la década de 2010.

Debates

Modelos de secuencia generativos versus discriminativos
Si modelar la distribución conjunta de palabras y etiquetas (HMM) o condicionar las etiquetas directamente en la entrada (CRF); los modelos discriminativos generalmente ganan en precisión cuando se dispone de características ricas.

Key figures

  • Mitchell Marcus
  • John Lafferty
  • Andrew McCallum
  • Fernando Pereira

Related topics

Seminal works

  • marcus1993
  • lafferty2001

Frequently asked questions

¿Por qué el etiquetado de partes de la oración no es trivial?
Muchas palabras son ambiguas —'book' puede ser un sustantivo o un verbo— por lo que la etiqueta correcta depende del contexto. Los modelos de secuencia resuelven esto al considerar conjuntamente las palabras y etiquetas circundantes.

Methods for this concept

Related concepts