Etiquetado de partes de la oración y etiquetado de secuencias
Asignar una etiqueta a cada token en una oración —su parte de la oración, tipo de entidad nombrada o etiqueta de fragmento— utilizando modelos de secuencia probabilísticos como los modelos ocultos de Markov y los campos aleatorios condicionales.
Definition
El etiquetado de secuencias es la tarea de asignar una etiqueta categórica a cada elemento de una secuencia de entrada, siendo el etiquetado de partes de la oración su instancia canónica.
Scope
Cubre las tareas de etiquetado de secuencias centrales para el análisis superficial: etiquetado de partes de la oración, reconocimiento de entidades nombradas y fragmentación (chunking). Incluye los modelos estándar —modelos ocultos de Markov, modelos de Markov de máxima entropía, campos aleatorios condicionales y etiquetadores de secuencia neuronales— y conjuntos de etiquetas como el Penn Treebank y Universal POS. El análisis sintáctico completo se cubre en temas relacionados.
Core questions
- ¿Cómo asignan los modelos ocultos de Markov la secuencia de etiquetas más probable?
- ¿Por qué los campos aleatorios condicionales superan a los modelos normalizados localmente?
- ¿Cómo se diseñan y estandarizan los conjuntos de etiquetas en diferentes idiomas?
- ¿Cómo apoya el etiquetado de secuencias el análisis sintáctico y la extracción posteriores?
Key concepts
- etiqueta de parte de la oración
- modelo oculto de Markov
- algoritmo de Viterbi
- campo aleatorio condicional
- reconocimiento de entidades nombradas
- fragmentación (chunking)
- conjunto de etiquetas (tagset)
- codificación BIO
Key theories
- Etiquetado con modelos ocultos de Markov
- Modelar una secuencia de etiquetas como una cadena de Markov que emite palabras observadas, con el algoritmo de Viterbi recuperando la secuencia de etiquetas más probable de manera eficiente.
- Campos aleatorios condicionales
- Modelos discriminativos globalmente normalizados para el etiquetado de secuencias que condicionan la entrada completa y evitan el sesgo de etiqueta de los modelos normalizados localmente.
History
El etiquetado POS fue un éxito temprano del PNL estadístico una vez que el Penn Treebank (1993) proporcionó grandes datos anotados. Los etiquetadores de modelos ocultos de Markov dieron paso a los modelos discriminativos de máxima entropía y de campos aleatorios condicionales alrededor de 2001, que a su vez fueron absorbidos por los etiquetadores de secuencia neuronales en la década de 2010.
Debates
- Modelos de secuencia generativos versus discriminativos
- Si modelar la distribución conjunta de palabras y etiquetas (HMM) o condicionar las etiquetas directamente en la entrada (CRF); los modelos discriminativos generalmente ganan en precisión cuando se dispone de características ricas.
Key figures
- Mitchell Marcus
- John Lafferty
- Andrew McCallum
- Fernando Pereira
Related topics
Seminal works
- marcus1993
- lafferty2001
Frequently asked questions
- ¿Por qué el etiquetado de partes de la oración no es trivial?
- Muchas palabras son ambiguas —'book' puede ser un sustantivo o un verbo— por lo que la etiqueta correcta depende del contexto. Los modelos de secuencia resuelven esto al considerar conjuntamente las palabras y etiquetas circundantes.