语料库语言学与网络语料库
通过大量真实文本样本研究语言:构建和查询语料库,测量搭配和频率,以及利用网络作为巨大的语言资源。
用 PaperMind 寻找选题即将推出Find papers & topics
Tools & resources
Learn & explore
视频即将推出
Definition
语料库语言学是基于自然发生文本的系统性集合,通过频率、索引和关联度量进行分析的语言实证研究。
Scope
涵盖文本语料库的设计、编纂和分析——抽样和平衡、索引和关键词分析、频率和搭配统计(如互信息),以及将网络用作语料库。它涉及描述性语料库语言学和为计算系统提供数据。标注方案和树库在相关主题中涵盖。
Core questions
- 如何对语料库进行抽样以公平地代表一种语言变体?
- 互信息等关联度量如何揭示搭配?
- 将网络用作语料库的优点和缺点是什么?
- 索引如何支持语言学和词典编纂分析?
Key concepts
- 语料库设计
- 索引
- 搭配
- 逐点互信息
- 频率分布
- 关键词分析
- 网络作为语料库
- 平衡语料库
Key theories
- 搭配的关联度量
- 使用逐点互信息等统计量来检测共同出现的词对,其共现频率高于偶然性,从而揭示搭配并支持词典编纂。
- 网络作为语料库
- 将网络视为一个庞大但不受控制的语料库,从而能够研究罕见现象和低资源语言变体,同时引发代表性问题。
History
语料库语言学起源于辛克莱的词典编纂项目和平衡语料库的构建,而丘奇和汉克斯1989年关于互信息的工作将统计关联度量引入主流。Kilgarriff和Grefenstette后来确立了网络作为一种合法(尽管有噪音)且规模空前的语料库。
Debates
- 网络数据的代表性
- 网络语料库规模巨大但失衡且难以表征,引发了对其结论在多大程度上能推广到整个语言的争论。
Key figures
- Adam Kilgarriff
- Kenneth Church
- Patrick Hanks
- John Sinclair
Related topics
Seminal works
- church1989
- kilgarriff2003
Frequently asked questions
- 什么是搭配?
- 搭配是指习惯性地共同出现的词对或词组,其共现频率高于偶然性,例如“浓茶”(strong tea)而非“强力茶”(powerful tea)。关联度量有助于自动检测它们。