Procesamiento del Lenguaje Natural
El procesamiento del lenguaje natural es el área de la inteligencia artificial que se ocupa de permitir que las computadoras analicen, comprendan y generen lenguaje humano en texto o voz.
Definition
El procesamiento del lenguaje natural es el estudio y la ingeniería de métodos que permiten a las computadoras establecer una correspondencia entre el lenguaje humano y las representaciones estructuradas de su forma y significado, apoyando tareas desde el análisis sintáctico y la traducción hasta la extracción y la generación.
Scope
Esta área abarca el tratamiento computacional del lenguaje humano en sus diversos niveles de estructura: morfología y sintaxis (análisis sintáctico), semántica y representación del significado, discurso, y aplicaciones como la traducción automática y la extracción de información. Trata los modelos formales del lenguaje (gramáticas, representaciones lógicas y distribucionales del significado) y las tareas de análisis y producción del lenguaje. Los métodos generales de aprendizaje estadístico y neuronal que entrenan los modelos de lenguaje modernos forman parte del subcampo del aprendizaje automático; esta área enfatiza la estructura lingüística, las tareas y las representaciones específicas del lenguaje.
Sub-topics
Core questions
- ¿Cómo se recupera la estructura gramatical de una oración a partir de una secuencia de palabras?
- ¿Cómo se puede representar computacionalmente el significado de palabras, oraciones y discursos?
- ¿Cómo se resuelve la ambigüedad, omnipresente en todos los niveles del lenguaje, utilizando el contexto?
- ¿Cómo se convierten las capacidades de comprensión del lenguaje en aplicaciones como la traducción y la extracción?
Key concepts
- morfología y tokenización
- sintaxis y análisis sintáctico
- semántica y representación del significado
- ambigüedad y desambiguación
- discurso y pragmática
- modelos de lenguaje
- traducción automática
- extracción de información
Key theories
- Niveles de análisis lingüístico
- El lenguaje se analiza en niveles distintos pero interactuantes —fonología, morfología, sintaxis, semántica, pragmática y discurso— y los sistemas de PNL se organizan en torno a la recuperación de la estructura y el significado en estos niveles.
- Gramáticas y análisis sintáctico
- Las gramáticas formales, especialmente las libres de contexto y los formalismos más ricos, modelan la estructura sintáctica del lenguaje, y los algoritmos de análisis sintáctico recuperan esa estructura, proporcionando una columna vertebral para el análisis del significado.
- Modelado del lenguaje estadístico y distribucional
- Tratar el lenguaje probabilísticamente —modelando la probabilidad de secuencias de palabras y representando el significado de las palabras por el contexto distribucional— otorgó al PNL robustez frente a la ambigüedad y la variación, y se convirtió en el paradigma dominante.
Clinical relevance
El procesamiento del lenguaje natural impulsa los motores de búsqueda, la traducción automática, los sistemas de preguntas y respuestas y de chat, el reconocimiento de voz y el diálogo, el análisis de sentimientos y la extracción de información estructurada de textos en dominios como la biomedicina y el derecho, lo que lo convierte en una de las áreas de la IA más visiblemente implementadas.
History
El PNL comenzó con la traducción automática en la década de 1950 y los sistemas simbólicos de las décadas de 1960 y 1970, como SHRDLU de Winograd. Los métodos estadísticos cobraron importancia a partir de finales de la década de 1980, consolidados en textos como Manning y Schütze (1999), y los métodos neuronales y de modelos de lenguaje a gran escala transformaron posteriormente el campo; sus tareas y fundamentos lingüísticos siguen siendo una parte estándar de la IA.
Debates
- Enfoques simbólicos vs. estadísticos y neuronales
- El PNL ha oscilado durante mucho tiempo entre gramáticas y reglas simbólicas construidas manualmente y modelos estadísticos o neuronales basados en datos; el giro estadístico y los métodos neuronales posteriores llegaron a dominar por su robustez, aunque persisten las cuestiones de interpretabilidad e incorporación de la estructura lingüística.
Key figures
- Daniel Jurafsky
- James H. Martin
- Christopher D. Manning
- Terry Winograd
- Karen Spärck Jones
Related topics
Seminal works
- winograd1972
- manning1999
- jurafsky2023
Frequently asked questions
- ¿Cuál es la diferencia entre el procesamiento del lenguaje natural y la lingüística computacional?
- Los términos se superponen en gran medida. La lingüística computacional enfatiza el uso de la computación para comprender y modelar el lenguaje humano como un fenómeno científico, mientras que el procesamiento del lenguaje natural enfatiza la ingeniería de sistemas que realizan tareas lingüísticas útiles. En la práctica, los mismos modelos y métodos sirven para ambos objetivos.
- ¿Por qué la ambigüedad es un problema tan central en el PNL?
- El lenguaje humano es ambiguo en todos los niveles: las palabras tienen múltiples sentidos, las oraciones tienen múltiples análisis sintácticos y las referencias pueden ser poco claras. Gran parte del PNL consiste en usar el contexto y modelos probabilísticos o aprendidos para elegir la interpretación que un humano haría, lo cual es lo que hace que el campo sea difícil.