ScholarGate
助手

语料库语言学与网络语料库

通过大量真实文本样本研究语言:构建和查询语料库,测量搭配和频率,以及利用网络作为巨大的语言资源。

用 PaperMind 寻找选题即将推出Find papers & topics
Tools & resources
下载幻灯片
Learn & explore
视频即将推出

Definition

语料库语言学是基于自然发生文本的系统性集合,通过频率、索引和关联度量进行分析的语言实证研究。

Scope

涵盖文本语料库的设计、编纂和分析——抽样和平衡、索引和关键词分析、频率和搭配统计(如互信息),以及将网络用作语料库。它涉及描述性语料库语言学和为计算系统提供数据。标注方案和树库在相关主题中涵盖。

Core questions

  • 如何对语料库进行抽样以公平地代表一种语言变体?
  • 互信息等关联度量如何揭示搭配?
  • 将网络用作语料库的优点和缺点是什么?
  • 索引如何支持语言学和词典编纂分析?

Key concepts

  • 语料库设计
  • 索引
  • 搭配
  • 逐点互信息
  • 频率分布
  • 关键词分析
  • 网络作为语料库
  • 平衡语料库

Key theories

搭配的关联度量
使用逐点互信息等统计量来检测共同出现的词对,其共现频率高于偶然性,从而揭示搭配并支持词典编纂。
网络作为语料库
将网络视为一个庞大但不受控制的语料库,从而能够研究罕见现象和低资源语言变体,同时引发代表性问题。

History

语料库语言学起源于辛克莱的词典编纂项目和平衡语料库的构建,而丘奇和汉克斯1989年关于互信息的工作将统计关联度量引入主流。Kilgarriff和Grefenstette后来确立了网络作为一种合法(尽管有噪音)且规模空前的语料库。

Debates

网络数据的代表性
网络语料库规模巨大但失衡且难以表征,引发了对其结论在多大程度上能推广到整个语言的争论。

Key figures

  • Adam Kilgarriff
  • Kenneth Church
  • Patrick Hanks
  • John Sinclair

Related topics

Seminal works

  • church1989
  • kilgarriff2003

Frequently asked questions

什么是搭配?
搭配是指习惯性地共同出现的词对或词组,其共现频率高于偶然性,例如“浓茶”(strong tea)而非“强力茶”(powerful tea)。关联度量有助于自动检测它们。

Methods for this concept

Related concepts