ScholarGate
Asistente

Recursos léxicos y de corpus

Las bases de datos y de conocimiento de las que depende la lingüística computacional empírica: corpus de texto, bases de datos léxicas y ontologías, tratamientos computacionales de la estructura de las palabras y treebanks ricamente anotados.

Encontrar tema con PaperMindPróximamenteFind papers & topics
Tools & resources
Descargar diapositivas
Learn & explore
VídeoPróximamente

Definition

Los recursos léxicos y de corpus son colecciones estructuradas de datos lingüísticos —textos, léxicos y anotaciones— construidas para apoyar el análisis empírico y la capacitación de sistemas de procesamiento del lenguaje.

Scope

Cubre la construcción, curación y uso de recursos lingüísticos —corpus equilibrados y de la web, bases de datos léxico-semánticas como WordNet, morfología computacional y léxicos, y treebanks anotados. Aborda el diseño de corpus, la representatividad, los estándares de anotación y el papel de los recursos en la capacitación y evaluación de sistemas. El modelado algorítmico que consume estos recursos se cubre en otras áreas.

Sub-topics

Core questions

  • ¿Cómo se diseñan los corpus para que sean representativos y equilibrados?
  • ¿Cómo se pueden organizar los significados de las palabras en bases de datos léxicas legibles por máquina?
  • ¿Cómo se representa computacionalmente la estructura de las palabras en lenguas morfológicamente ricas?
  • ¿Por qué los treebanks anotados son centrales para la lingüística basada en datos?

Key concepts

  • corpus
  • representatividad
  • base de datos léxica
  • WordNet
  • synset
  • léxico morfológico
  • treebank
  • estándar de anotación

Key theories

Empirismo basado en corpus
La postura metodológica de que las generalizaciones lingüísticas y los parámetros del sistema deben basarse en grandes muestras de uso atestiguado en lugar de solo en la introspección.
Redes léxico-semánticas
Organizar el léxico como un grafo de sentidos vinculados por relaciones como la sinonimia y la hiperonimia, como en WordNet, apoyando tareas desde la desambiguación hasta la similitud semántica.

History

El cambio a métodos empíricos en la década de 1990 hizo que los corpus y los recursos léxicos fueran fundamentales. WordNet proporcionó una base de datos léxico-semántica reutilizable, los corpus equilibrados como el British National Corpus establecieron estándares de diseño, y el trabajo de Kilgarriff y Grefenstette legitimó la propia Web como un vasto corpus para el estudio lingüístico.

Debates

Corpus equilibrados versus la Web como corpus
Si los corpus cuidadosamente equilibrados o la Web, desordenada pero enorme, sirven mejor a la investigación lingüística; el campo utiliza cada vez más ambos, sopesando la representatividad frente a la escala.

Key figures

  • Christiane Fellbaum
  • Adam Kilgarriff
  • Christopher Manning
  • George Miller

Related topics

Seminal works

  • fellbaum1998
  • kilgarriff2003
  • manning1999

Frequently asked questions

¿Qué hace un buen corpus?
Un buen corpus es lo suficientemente grande para estadísticas fiables y representativo de la variedad lingüística que se estudia, con documentación clara de sus fuentes, muestreo y cualquier anotación para que los resultados puedan interpretarse y reproducirse.

Methods for this concept

Related concepts