スタイロメトリーと著者特定
著者は統計的な指紋を残します。「the」「of」「and」といった小さく無意識に使われる単語の頻度は、同一著者の作品内ではほとんど変化しませんが、著者間では異なります。スタイロメトリーはこの特性を利用して、論争のある著者を特定し、文体を定量的に研究します。
PaperMindでテーマを探す近日公開Find papers & topics
Tools & resources
Learn & explore
動画近日公開
Definition
文体の測定可能な特徴を統計的に分析し、著者を特徴づけ、不確実または論争のある著者のテキストを特定すること。
Scope
文体の定量的測定と、それを用いたテキストの著者特定について扱います。これには、文体的特徴の選択、バローズのデルタなどの距離および分類尺度、著者特定の主張の検証が含まれます。連邦主義者論文から現代の機械学習手法に至るまでの分野の歴史と、その法医学的応用も網羅します。
Core questions
- 著者の特徴的な文体を最もよく捉えるテキスト的特徴は何ですか?
- 著者特定の主張はどのようにテストおよび検証できますか?
- 機能語の頻度が著者特定に非常に効果的なのはなぜですか?
- ジャンル、時代、翻訳を越えたスタイロメトリーの限界は何ですか?
Key concepts
- 機能語
- バローズのデルタ
- 特徴選択
- 分類
- 交差検定
Key theories
- 著者信号としての機能語頻度
- モステラーとウォレスは、一般的な機能語の頻度が著者を識別できることを示し、ベイジアン推論を用いて論争のあった連邦主義者論文の著者を特定しました。
- バローズのデルタ
- バローズは、最も頻繁に出現する単語に対する距離尺度であるデルタを導入しました。これは、候補著者をランク付けするための標準的で堅牢な手法となっています。
- 分類としての現代の著者特定
- スタマトスは、著者特定がテキスト分類問題としてどのように位置づけられ、特徴セットと機械学習手法が比較されているかを調査しました。
History
定量的な著者研究は19世紀に遡りますが、モステラーとウォレスによる1964年の連邦主義者論文の研究が現代の統計的アプローチを確立しました。バローズのデルタ(2002年)はこの分野に広く採用される尺度をもたらし、スタマトス(2009年)などの調査は、機械学習による分類と法医学的利用への移行を示しました。
Debates
- 著者特定の信頼性と確信度
- スタイロメトリーの手法は強力である一方で、コーパスサイズ、ジャンル、前処理に敏感であるため、特に法医学的な文脈において、著者特定がどの程度の確信度を持つべきかという疑問が生じています。
Key figures
- Frederick Mosteller
- David Wallace
- John Burrows
- Efstathios Stamatatos
Related topics
Seminal works
- mosteller1964
- burrows2002
- stamatatos2009
Frequently asked questions
- なぜ特徴的な語彙ではなく、「the」のような小さな単語に焦点を当てるのですか?
- 特徴的な語彙は、著者の個性よりもテキストの主題を反映することがよくあります。一般的な機能語は無意識に使用され、著者の文章内では安定した頻度で出現しますが、著者間では異なるため、文体の信頼できる、主題に依存しない信号となります。