语料库的构建与管理
每一次计算阅读都依赖于语料库,而没有哪个语料库是中立的。关于纳入哪些内容、如何清理和组织文本以及附加哪些元数据的选择,都会影响随后的每一个结果——这使得语料库的构建本身就是一项学术行为。
用 PaperMind 寻找选题即将推出Find papers & topics
Tools & resources
Learn & explore
视频即将推出
Definition
以原则性的方式对用于计算分析的文本集合进行组装、处理、文档化和维护,并批判性地关注这些集合是如何被选择和塑造的。
Scope
涵盖用于计算分析的文本语料库的构建和管理:选择和抽样、清理和规范化、光学字符识别和转录、元数据和文档。包括对代表性、偏见以及人文学科数据集构建性质的批判性反思。此处从数字人文视角而非语料库语言学角度进行探讨。
Core questions
- 语料库代表文学或历史文献意味着什么?
- 清理、OCR和规范化决策如何影响后续分析?
- 一个可重用语料库需要哪些元数据和文档?
- 现有数字藏品中缺少了谁的文本,原因何在?
Key concepts
- 抽样
- 代表性
- OCR
- 规范化
- 来源
- 文档
Key theories
- 数据是被构建的,而非既定的
- 吉特尔曼及其合作者认为,数据总是被制造出来的——经过选择、清理和框架化——因此“原始数据”是一个误称,每个数据集都带有其构建过程中的假设。
- 代表性与文学语料库
- 安德伍德讨论了数字藏品的构成和偏见如何影响关于文学变迁的主张,使抽样和来源成为核心方法论关注点。
- 作为学术论证的集合
- 博德认为,支撑计算文学史的数字集合本身就是解释性的构建,学者必须说明集合是如何构建的。
History
随着计算文本分析的发展,学者们日益认识到结果取决于其背后的语料库。吉特尔曼(Gitelman)2013年的著作挑战了数据中立的观念;博德(Bode, 2018)和安德伍德(Underwood, 2019)明确指出了文学语料库的构建和偏见,将语料库管理确立为一种方法论和批判性关注点。
Debates
- 代表性与可用性
- 语料库通常是根据已数字化的内容构建的,这往往偏向某些语言、时期和经典作品,从而引发了结论的普适性问题。
Key figures
- Ted Underwood
- Katherine Bode
- Lisa Gitelman
Related topics
Seminal works
- gitelman2013
- bode2018
- underwood2019
Frequently asked questions
- 为什么我不能直接下载一大堆文本进行分析?
- 因为这堆文本的构成决定了你的结果。现有集合不均衡,偏向于已数字化的内容,未经校正的OCR会引入错误。记录选择、来源和处理过程对于解释和信任任何计算结果至关重要。