为什么关注“的”这样的小词而不是独特的词汇？

独特的词汇往往反映文本的主题而非作者。常用虚词是无意识使用的，在同一位作家的作品中以稳定的频率出现，但在不同作家之间则有所差异，这使得它们成为可靠的、独立于主题的风格信号。

文体学与作者归属

作家会留下统计学上的“指纹”。“的”、“之”、“和”等无意识使用的虚词的频率在同一位作家的作品中变化不大，但在不同作家之间则有所差异。文体学利用这一点来解决有争议的作者归属问题，并定量研究文体。

用 PaperMind 寻找选题即将推出Find papers & topics

Tools & resources

下载幻灯片

Learn & explore

视频即将推出

Definition

对写作风格的可测量特征进行统计分析，以刻画作者并确定不确定或有争议文本的作者归属。

Scope

涵盖文学风格的定量测量及其在文本作者归属中的应用：文体特征的选择、距离和分类测量（如伯罗斯Delta值），以及归属主张的验证。包括该领域从《联邦党人文集》到现代机器学习方法的历史，及其法医应用。

Core questions

哪些文本特征最能捕捉作者独特的风格？
如何检验和验证作者归属主张？
为什么虚词频率对于作者归属如此有效？
文体学在不同体裁、时期和翻译作品中的局限性是什么？

Key concepts

虚词
伯罗斯Delta值
特征选择
分类
交叉验证

Key theories

虚词频率作为作者信号: 莫斯特勒（Mosteller）和华莱士（Wallace）表明，常用虚词的频率可以区分作者，他们使用贝叶斯推断来确定有争议的《联邦党人文集》的作者归属。
伯罗斯Delta值: 伯罗斯（Burrows）引入了Delta值，这是一种基于最常用词的距离测量方法，已成为评估候选作者的标准、稳健方法。
现代作者归属作为分类问题: 斯塔马塔托斯（Stamatatos）调查了作者归属如何被视为文本分类问题，并比较了特征集和机器学习方法。

History

定量的作者研究可追溯到19世纪，但莫斯特勒（Mosteller）和华莱士（Wallace）1964年对《联邦党人文集》的研究确立了现代统计学方法。伯罗斯（Burrows）的Delta值（2002）为该领域提供了一种被广泛采用的测量方法，而斯塔马塔托斯（Stamatatos）等人的调查（2009）则描绘了向机器学习分类和法医用途的转变。

Debates

作者归属的可靠性和置信度: 文体学方法可能非常强大，但对语料库大小、体裁和预处理敏感，这引发了关于作者归属应有多大置信度的问题，尤其是在法医语境中。

Key figures

Frederick Mosteller
David Wallace
John Burrows
Efstathios Stamatatos

Seminal works

mosteller1964
burrows2002
stamatatos2009

Frequently asked questions

为什么关注“的”这样的小词而不是独特的词汇？: 独特的词汇往往反映文本的主题而非作者。常用虚词是无意识使用的，在同一位作家的作品中以稳定的频率出现，但在不同作家之间则有所差异，这使得它们成为可靠的、独立于主题的风格信号。