¿Qué es una colocación?

Una colocación es un par o grupo de palabras que ocurren habitualmente juntas con más frecuencia de lo que predeciría el azar, como 'té fuerte' en lugar de 'té potente'. Las medidas de asociación ayudan a detectarlas automáticamente.

Lingüística de Corpus y Corpus Web

Estudio del lenguaje a través de grandes muestras de texto auténtico: construcción y consulta de corpus, medición de colocaciones y frecuencias, y aprovechamiento de la Web como un vasto recurso lingüístico.

Encontrar tema con PaperMindPróximamenteFind papers & topics

Tools & resources

Descargar diapositivas

Learn & explore

VídeoPróximamente

Definition

La lingüística de corpus es el estudio empírico del lenguaje basado en colecciones sistemáticas de texto de ocurrencia natural, analizadas con medidas de frecuencia, concordancia y asociación.

Scope

Cubre el diseño, la compilación y el análisis de corpus de texto — muestreo y equilibrio, concordancias y análisis de palabras clave, estadísticas de frecuencia y colocación como la información mutua, y el uso de la Web como corpus. Aborda tanto la lingüística de corpus descriptiva como el suministro de datos para sistemas computacionales. Los esquemas de anotación y los treebanks se tratan en un tema relacionado.

Core questions

¿Cómo se muestrean los corpus para representar de manera justa una variedad lingüística?
¿Cómo revelan las medidas de asociación, como la información mutua, las colocaciones?
¿Cuáles son los beneficios y las desventajas de usar la Web como corpus?
¿Cómo apoyan las concordancias el análisis lingüístico y lexicográfico?

Key concepts

diseño de corpus
concordancia
colocación
información mutua puntual
distribución de frecuencia
análisis de palabras clave
Web como corpus
corpus equilibrado

Key theories

Medidas de asociación para la colocación: Uso de estadísticas como la información mutua puntual para detectar pares de palabras que co-ocurren más de lo esperado por azar, revelando colocaciones y apoyando la lexicografía.
La Web como corpus: Tratar la Web como un corpus enorme, aunque incontrolado, lo que permite el estudio de fenómenos raros y variedades con pocos recursos, al tiempo que plantea cuestiones de representatividad.

History

La lingüística de corpus surgió de los proyectos lexicográficos de Sinclair y la construcción de corpus equilibrados, mientras que el trabajo de Church y Hanks de 1989 sobre la información mutua introdujo las medidas estadísticas de asociación en la corriente principal. Kilgarriff y Grefenstette establecieron más tarde la Web como un corpus legítimo, aunque ruidoso, de escala sin precedentes.

Debates

Representatividad de los datos de la Web: Los corpus web son enormes pero desequilibrados y difíciles de caracterizar, lo que provoca un debate sobre hasta qué punto las conclusiones extraídas de ellos se generalizan a un idioma en su conjunto.

Key figures

Adam Kilgarriff
Kenneth Church
Patrick Hanks
John Sinclair

Seminal works

church1989
kilgarriff2003

Frequently asked questions

¿Qué es una colocación?: Una colocación es un par o grupo de palabras que ocurren habitualmente juntas con más frecuencia de lo que predeciría el azar, como 'té fuerte' en lugar de 'té potente'. Las medidas de asociación ayudan a detectarlas automáticamente.