文体学与作者归属
作家会留下统计学上的“指纹”。“的”、“之”、“和”等无意识使用的虚词的频率在同一位作家的作品中变化不大,但在不同作家之间则有所差异。文体学利用这一点来解决有争议的作者归属问题,并定量研究文体。
用 PaperMind 寻找选题即将推出Find papers & topics
Tools & resources
Learn & explore
视频即将推出
Definition
对写作风格的可测量特征进行统计分析,以刻画作者并确定不确定或有争议文本的作者归属。
Scope
涵盖文学风格的定量测量及其在文本作者归属中的应用:文体特征的选择、距离和分类测量(如伯罗斯Delta值),以及归属主张的验证。包括该领域从《联邦党人文集》到现代机器学习方法的历史,及其法医应用。
Core questions
- 哪些文本特征最能捕捉作者独特的风格?
- 如何检验和验证作者归属主张?
- 为什么虚词频率对于作者归属如此有效?
- 文体学在不同体裁、时期和翻译作品中的局限性是什么?
Key concepts
- 虚词
- 伯罗斯Delta值
- 特征选择
- 分类
- 交叉验证
Key theories
- 虚词频率作为作者信号
- 莫斯特勒(Mosteller)和华莱士(Wallace)表明,常用虚词的频率可以区分作者,他们使用贝叶斯推断来确定有争议的《联邦党人文集》的作者归属。
- 伯罗斯Delta值
- 伯罗斯(Burrows)引入了Delta值,这是一种基于最常用词的距离测量方法,已成为评估候选作者的标准、稳健方法。
- 现代作者归属作为分类问题
- 斯塔马塔托斯(Stamatatos)调查了作者归属如何被视为文本分类问题,并比较了特征集和机器学习方法。
History
定量的作者研究可追溯到19世纪,但莫斯特勒(Mosteller)和华莱士(Wallace)1964年对《联邦党人文集》的研究确立了现代统计学方法。伯罗斯(Burrows)的Delta值(2002)为该领域提供了一种被广泛采用的测量方法,而斯塔马塔托斯(Stamatatos)等人的调查(2009)则描绘了向机器学习分类和法医用途的转变。
Debates
- 作者归属的可靠性和置信度
- 文体学方法可能非常强大,但对语料库大小、体裁和预处理敏感,这引发了关于作者归属应有多大置信度的问题,尤其是在法医语境中。
Key figures
- Frederick Mosteller
- David Wallace
- John Burrows
- Efstathios Stamatatos
Related topics
Seminal works
- mosteller1964
- burrows2002
- stamatatos2009
Frequently asked questions
- 为什么关注“的”这样的小词而不是独特的词汇?
- 独特的词汇往往反映文本的主题而非作者。常用虚词是无意识使用的,在同一位作家的作品中以稳定的频率出现,但在不同作家之间则有所差异,这使得它们成为可靠的、独立于主题的风格信号。