Análisis sintáctico y formalismos gramaticales
Recuperación de la estructura gramatical de las oraciones mediante máquinas: los formalismos gramaticales que describen las estructuras legales y los algoritmos que las calculan, desde árboles de constituyentes hasta grafos de dependencia.
Definition
El análisis sintáctico es la asignación computacional de una estructura gramatical a una cadena de entrada de acuerdo con una gramática; los formalismos gramaticales son los sistemas utilizados para especificar qué estructuras son válidas.
Scope
Cubre el análisis sintáctico en lingüística computacional: el análisis de constituyentes libre de contexto y sus algoritmos probabilísticos y basados en tablas, el análisis de dependencias, los principales formalismos gramaticales más allá de las gramáticas libres de contexto simples, y las tareas de etiquetado de secuencias (como el etiquetado de partes del discurso) que alimentan el análisis sintáctico. Excluye la interpretación semántica, que se aborda en la semántica computacional, y la teoría de autómatas subyacente, cubierta en los fundamentos.
Sub-topics
Core questions
- ¿Cómo se puede asignar eficientemente un árbol sintáctico o un grafo de dependencia a una oración?
- ¿Qué formalismos gramaticales capturan adecuadamente la sintaxis del lenguaje natural?
- ¿Cómo ayudan las probabilidades a desambiguar entre muchas posibles interpretaciones?
- ¿Cómo apoyan el etiquetado y la segmentación el análisis sintáctico completo?
Key concepts
- análisis de constituyentes
- análisis de dependencias
- gramática libre de contexto
- análisis de tablas
- gramática probabilística
- etiquetado de partes del discurso
- treebank
- ambigüedad estructural
Key theories
- Análisis de tablas
- Algoritmos de programación dinámica como CKY y Earley que calculan todos los análisis posibles de una oración en tiempo polinomial reutilizando subanálisis compartidos.
- Gramáticas probabilísticas libres de contexto
- Asignación de probabilidades a las reglas gramaticales para que se pueda seleccionar el análisis más probable, abordando la ambigüedad estructural omnipresente del lenguaje natural.
History
El análisis sintáctico temprano se basó en gramáticas construidas manualmente y búsqueda exhaustiva; los algoritmos CKY y Earley hicieron eficiente el análisis libre de contexto. La publicación de los treebanks en la década de 1990 permitió el análisis probabilístico basado en datos, y la década de 2000 vio el ascenso del análisis de dependencias por su robustez interlingüística, posteriormente subsumido por los analizadores neuronales.
Debates
- Representación de constituyentes versus dependencias
- Si la sintaxis se representa mejor como frases anidadas o como relaciones etiquetadas de núcleo-dependiente; ambas son ampliamente utilizadas, con la dependencia favorecida para lenguajes de orden de palabras libre y tareas posteriores.
Key figures
- Jay Earley
- Joakim Nivre
- Christopher Manning
- Mitchell Marcus
Related topics
Seminal works
- manning1999
- kubler2009
- jurafsky2025
Frequently asked questions
- ¿Por qué es difícil el análisis sintáctico si se conocen las reglas gramaticales?
- Las oraciones naturales son masivamente ambiguas: una sola cadena puede tener muchas estructuras válidas. Por lo tanto, el análisis sintáctico no solo debe encontrar estructuras, sino también clasificarlas, razón por la cual los modelos probabilísticos y aprendidos son esenciales.