Recursos léxicos y de corpus
Las bases de datos y de conocimiento de las que depende la lingüística computacional empírica: corpus de texto, bases de datos léxicas y ontologías, tratamientos computacionales de la estructura de las palabras y treebanks ricamente anotados.
Definition
Los recursos léxicos y de corpus son colecciones estructuradas de datos lingüísticos —textos, léxicos y anotaciones— construidas para apoyar el análisis empírico y la capacitación de sistemas de procesamiento del lenguaje.
Scope
Cubre la construcción, curación y uso de recursos lingüísticos —corpus equilibrados y de la web, bases de datos léxico-semánticas como WordNet, morfología computacional y léxicos, y treebanks anotados. Aborda el diseño de corpus, la representatividad, los estándares de anotación y el papel de los recursos en la capacitación y evaluación de sistemas. El modelado algorítmico que consume estos recursos se cubre en otras áreas.
Sub-topics
Core questions
- ¿Cómo se diseñan los corpus para que sean representativos y equilibrados?
- ¿Cómo se pueden organizar los significados de las palabras en bases de datos léxicas legibles por máquina?
- ¿Cómo se representa computacionalmente la estructura de las palabras en lenguas morfológicamente ricas?
- ¿Por qué los treebanks anotados son centrales para la lingüística basada en datos?
Key concepts
- corpus
- representatividad
- base de datos léxica
- WordNet
- synset
- léxico morfológico
- treebank
- estándar de anotación
Key theories
- Empirismo basado en corpus
- La postura metodológica de que las generalizaciones lingüísticas y los parámetros del sistema deben basarse en grandes muestras de uso atestiguado en lugar de solo en la introspección.
- Redes léxico-semánticas
- Organizar el léxico como un grafo de sentidos vinculados por relaciones como la sinonimia y la hiperonimia, como en WordNet, apoyando tareas desde la desambiguación hasta la similitud semántica.
History
El cambio a métodos empíricos en la década de 1990 hizo que los corpus y los recursos léxicos fueran fundamentales. WordNet proporcionó una base de datos léxico-semántica reutilizable, los corpus equilibrados como el British National Corpus establecieron estándares de diseño, y el trabajo de Kilgarriff y Grefenstette legitimó la propia Web como un vasto corpus para el estudio lingüístico.
Debates
- Corpus equilibrados versus la Web como corpus
- Si los corpus cuidadosamente equilibrados o la Web, desordenada pero enorme, sirven mejor a la investigación lingüística; el campo utiliza cada vez más ambos, sopesando la representatividad frente a la escala.
Key figures
- Christiane Fellbaum
- Adam Kilgarriff
- Christopher Manning
- George Miller
Related topics
Seminal works
- fellbaum1998
- kilgarriff2003
- manning1999
Frequently asked questions
- ¿Qué hace un buen corpus?
- Un buen corpus es lo suficientemente grande para estadísticas fiables y representativo de la variedad lingüística que se estudia, con documentación clara de sus fuentes, muestreo y cualquier anotación para que los resultados puedan interpretarse y reproducirse.