¿Qué hace un buen corpus?

Un buen corpus es lo suficientemente grande para estadísticas fiables y representativo de la variedad lingüística que se estudia, con documentación clara de sus fuentes, muestreo y cualquier anotación para que los resultados puedan interpretarse y reproducirse.

Recursos léxicos y de corpus

Las bases de datos y de conocimiento de las que depende la lingüística computacional empírica: corpus de texto, bases de datos léxicas y ontologías, tratamientos computacionales de la estructura de las palabras y treebanks ricamente anotados.

Encontrar tema con PaperMindPróximamenteFind papers & topics

Tools & resources

Descargar diapositivas

Learn & explore

VídeoPróximamente

Definition

Los recursos léxicos y de corpus son colecciones estructuradas de datos lingüísticos —textos, léxicos y anotaciones— construidas para apoyar el análisis empírico y la capacitación de sistemas de procesamiento del lenguaje.

Scope

Cubre la construcción, curación y uso de recursos lingüísticos —corpus equilibrados y de la web, bases de datos léxico-semánticas como WordNet, morfología computacional y léxicos, y treebanks anotados. Aborda el diseño de corpus, la representatividad, los estándares de anotación y el papel de los recursos en la capacitación y evaluación de sistemas. El modelado algorítmico que consume estos recursos se cubre en otras áreas.

Sub-topics

Core questions

¿Cómo se diseñan los corpus para que sean representativos y equilibrados?
¿Cómo se pueden organizar los significados de las palabras en bases de datos léxicas legibles por máquina?
¿Cómo se representa computacionalmente la estructura de las palabras en lenguas morfológicamente ricas?
¿Por qué los treebanks anotados son centrales para la lingüística basada en datos?

Key concepts

corpus
representatividad
base de datos léxica
WordNet
synset
léxico morfológico
treebank
estándar de anotación

Key theories

Empirismo basado en corpus: La postura metodológica de que las generalizaciones lingüísticas y los parámetros del sistema deben basarse en grandes muestras de uso atestiguado en lugar de solo en la introspección.
Redes léxico-semánticas: Organizar el léxico como un grafo de sentidos vinculados por relaciones como la sinonimia y la hiperonimia, como en WordNet, apoyando tareas desde la desambiguación hasta la similitud semántica.

History

El cambio a métodos empíricos en la década de 1990 hizo que los corpus y los recursos léxicos fueran fundamentales. WordNet proporcionó una base de datos léxico-semántica reutilizable, los corpus equilibrados como el British National Corpus establecieron estándares de diseño, y el trabajo de Kilgarriff y Grefenstette legitimó la propia Web como un vasto corpus para el estudio lingüístico.

Debates

Corpus equilibrados versus la Web como corpus: Si los corpus cuidadosamente equilibrados o la Web, desordenada pero enorme, sirven mejor a la investigación lingüística; el campo utiliza cada vez más ambos, sopesando la representatividad frente a la escala.

Key figures

Christiane Fellbaum
Adam Kilgarriff
Christopher Manning
George Miller

Seminal works

fellbaum1998
kilgarriff2003
manning1999

Frequently asked questions

¿Qué hace un buen corpus?: Un buen corpus es lo suficientemente grande para estadísticas fiables y representativo de la variedad lingüística que se estudia, con documentación clara de sus fuentes, muestreo y cualquier anotación para que los resultados puedan interpretarse y reproducirse.