ScholarGate
Asistente

Lingüística de Corpus y Corpus Web

Estudio del lenguaje a través de grandes muestras de texto auténtico: construcción y consulta de corpus, medición de colocaciones y frecuencias, y aprovechamiento de la Web como un vasto recurso lingüístico.

Encontrar tema con PaperMindPróximamenteFind papers & topics
Tools & resources
Descargar diapositivas
Learn & explore
VídeoPróximamente

Definition

La lingüística de corpus es el estudio empírico del lenguaje basado en colecciones sistemáticas de texto de ocurrencia natural, analizadas con medidas de frecuencia, concordancia y asociación.

Scope

Cubre el diseño, la compilación y el análisis de corpus de texto — muestreo y equilibrio, concordancias y análisis de palabras clave, estadísticas de frecuencia y colocación como la información mutua, y el uso de la Web como corpus. Aborda tanto la lingüística de corpus descriptiva como el suministro de datos para sistemas computacionales. Los esquemas de anotación y los treebanks se tratan en un tema relacionado.

Core questions

  • ¿Cómo se muestrean los corpus para representar de manera justa una variedad lingüística?
  • ¿Cómo revelan las medidas de asociación, como la información mutua, las colocaciones?
  • ¿Cuáles son los beneficios y las desventajas de usar la Web como corpus?
  • ¿Cómo apoyan las concordancias el análisis lingüístico y lexicográfico?

Key concepts

  • diseño de corpus
  • concordancia
  • colocación
  • información mutua puntual
  • distribución de frecuencia
  • análisis de palabras clave
  • Web como corpus
  • corpus equilibrado

Key theories

Medidas de asociación para la colocación
Uso de estadísticas como la información mutua puntual para detectar pares de palabras que co-ocurren más de lo esperado por azar, revelando colocaciones y apoyando la lexicografía.
La Web como corpus
Tratar la Web como un corpus enorme, aunque incontrolado, lo que permite el estudio de fenómenos raros y variedades con pocos recursos, al tiempo que plantea cuestiones de representatividad.

History

La lingüística de corpus surgió de los proyectos lexicográficos de Sinclair y la construcción de corpus equilibrados, mientras que el trabajo de Church y Hanks de 1989 sobre la información mutua introdujo las medidas estadísticas de asociación en la corriente principal. Kilgarriff y Grefenstette establecieron más tarde la Web como un corpus legítimo, aunque ruidoso, de escala sin precedentes.

Debates

Representatividad de los datos de la Web
Los corpus web son enormes pero desequilibrados y difíciles de caracterizar, lo que provoca un debate sobre hasta qué punto las conclusiones extraídas de ellos se generalizan a un idioma en su conjunto.

Key figures

  • Adam Kilgarriff
  • Kenneth Church
  • Patrick Hanks
  • John Sinclair

Related topics

Seminal works

  • church1989
  • kilgarriff2003

Frequently asked questions

¿Qué es una colocación?
Una colocación es un par o grupo de palabras que ocurren habitualmente juntas con más frecuencia de lo que predeciría el azar, como 'té fuerte' en lugar de 'té potente'. Las medidas de asociación ayudan a detectarlas automáticamente.

Methods for this concept

Related concepts