Lingüística de Corpus y Corpus Web
Estudio del lenguaje a través de grandes muestras de texto auténtico: construcción y consulta de corpus, medición de colocaciones y frecuencias, y aprovechamiento de la Web como un vasto recurso lingüístico.
Definition
La lingüística de corpus es el estudio empírico del lenguaje basado en colecciones sistemáticas de texto de ocurrencia natural, analizadas con medidas de frecuencia, concordancia y asociación.
Scope
Cubre el diseño, la compilación y el análisis de corpus de texto — muestreo y equilibrio, concordancias y análisis de palabras clave, estadísticas de frecuencia y colocación como la información mutua, y el uso de la Web como corpus. Aborda tanto la lingüística de corpus descriptiva como el suministro de datos para sistemas computacionales. Los esquemas de anotación y los treebanks se tratan en un tema relacionado.
Core questions
- ¿Cómo se muestrean los corpus para representar de manera justa una variedad lingüística?
- ¿Cómo revelan las medidas de asociación, como la información mutua, las colocaciones?
- ¿Cuáles son los beneficios y las desventajas de usar la Web como corpus?
- ¿Cómo apoyan las concordancias el análisis lingüístico y lexicográfico?
Key concepts
- diseño de corpus
- concordancia
- colocación
- información mutua puntual
- distribución de frecuencia
- análisis de palabras clave
- Web como corpus
- corpus equilibrado
Key theories
- Medidas de asociación para la colocación
- Uso de estadísticas como la información mutua puntual para detectar pares de palabras que co-ocurren más de lo esperado por azar, revelando colocaciones y apoyando la lexicografía.
- La Web como corpus
- Tratar la Web como un corpus enorme, aunque incontrolado, lo que permite el estudio de fenómenos raros y variedades con pocos recursos, al tiempo que plantea cuestiones de representatividad.
History
La lingüística de corpus surgió de los proyectos lexicográficos de Sinclair y la construcción de corpus equilibrados, mientras que el trabajo de Church y Hanks de 1989 sobre la información mutua introdujo las medidas estadísticas de asociación en la corriente principal. Kilgarriff y Grefenstette establecieron más tarde la Web como un corpus legítimo, aunque ruidoso, de escala sin precedentes.
Debates
- Representatividad de los datos de la Web
- Los corpus web son enormes pero desequilibrados y difíciles de caracterizar, lo que provoca un debate sobre hasta qué punto las conclusiones extraídas de ellos se generalizan a un idioma en su conjunto.
Key figures
- Adam Kilgarriff
- Kenneth Church
- Patrick Hanks
- John Sinclair
Related topics
Seminal works
- church1989
- kilgarriff2003
Frequently asked questions
- ¿Qué es una colocación?
- Una colocación es un par o grupo de palabras que ocurren habitualmente juntas con más frecuencia de lo que predeciría el azar, como 'té fuerte' en lugar de 'té potente'. Las medidas de asociación ayudan a detectarlas automáticamente.