ScholarGate
助手

文体学与作者归属

作家会留下统计学上的“指纹”。“的”、“之”、“和”等无意识使用的虚词的频率在同一位作家的作品中变化不大,但在不同作家之间则有所差异。文体学利用这一点来解决有争议的作者归属问题,并定量研究文体。

用 PaperMind 寻找选题即将推出Find papers & topics
Tools & resources
下载幻灯片
Learn & explore
视频即将推出

Definition

对写作风格的可测量特征进行统计分析,以刻画作者并确定不确定或有争议文本的作者归属。

Scope

涵盖文学风格的定量测量及其在文本作者归属中的应用:文体特征的选择、距离和分类测量(如伯罗斯Delta值),以及归属主张的验证。包括该领域从《联邦党人文集》到现代机器学习方法的历史,及其法医应用。

Core questions

  • 哪些文本特征最能捕捉作者独特的风格?
  • 如何检验和验证作者归属主张?
  • 为什么虚词频率对于作者归属如此有效?
  • 文体学在不同体裁、时期和翻译作品中的局限性是什么?

Key concepts

  • 虚词
  • 伯罗斯Delta值
  • 特征选择
  • 分类
  • 交叉验证

Key theories

虚词频率作为作者信号
莫斯特勒(Mosteller)和华莱士(Wallace)表明,常用虚词的频率可以区分作者,他们使用贝叶斯推断来确定有争议的《联邦党人文集》的作者归属。
伯罗斯Delta值
伯罗斯(Burrows)引入了Delta值,这是一种基于最常用词的距离测量方法,已成为评估候选作者的标准、稳健方法。
现代作者归属作为分类问题
斯塔马塔托斯(Stamatatos)调查了作者归属如何被视为文本分类问题,并比较了特征集和机器学习方法。

History

定量的作者研究可追溯到19世纪,但莫斯特勒(Mosteller)和华莱士(Wallace)1964年对《联邦党人文集》的研究确立了现代统计学方法。伯罗斯(Burrows)的Delta值(2002)为该领域提供了一种被广泛采用的测量方法,而斯塔马塔托斯(Stamatatos)等人的调查(2009)则描绘了向机器学习分类和法医用途的转变。

Debates

作者归属的可靠性和置信度
文体学方法可能非常强大,但对语料库大小、体裁和预处理敏感,这引发了关于作者归属应有多大置信度的问题,尤其是在法医语境中。

Key figures

  • Frederick Mosteller
  • David Wallace
  • John Burrows
  • Efstathios Stamatatos

Related topics

Seminal works

  • mosteller1964
  • burrows2002
  • stamatatos2009

Frequently asked questions

为什么关注“的”这样的小词而不是独特的词汇?
独特的词汇往往反映文本的主题而非作者。常用虚词是无意识使用的,在同一位作家的作品中以稳定的频率出现,但在不同作家之间则有所差异,这使得它们成为可靠的、独立于主题的风格信号。

Methods for this concept

Related concepts