なぜ大量のテキストをダウンロードして分析するだけではいけないのですか？

その「山」の構成が結果を決定するからです。利用可能なコレクションは不均一であり、デジタル化されたものに偏りがあり、修正されていないOCRはエラーを引き起こします。選択、来歴、処理を文書化することは、計算による発見を解釈し信頼するために不可欠です。

コーパス構築とキュレーション

あらゆる計算論的読解はコーパスに依存しており、中立的なコーパスは存在しません。何を含めるか、テキストをどのようにクリーンアップし構造化するか、どのメタデータを付加するかといった選択は、その後のあらゆる結果を形成するため、コーパス構築自体が学術的な行為となります。

PaperMindでテーマを探す近日公開Find papers & topics

Tools & resources

スライドをダウンロード

Learn & explore

動画近日公開

Definition

計算分析に用いられるテキストコレクションの、原則に基づいた組み立て、処理、文書化、および維持管理であり、これらのコレクションがどのように選択され形成されるかに対する批判的な注意を伴います。

Scope

計算分析のためのテキストコーパスの構築と管理を扱います。具体的には、選択とサンプリング、クリーンアップと正規化、光学文字認識と転写、メタデータ、および文書化を含みます。代表性、バイアス、および人文学データセットの構築された性質に関する批判的考察も含まれます。ここでは、コーパス言語学としてではなく、デジタルヒューマニティーズの観点から扱われます。

Core questions

コーパスが文学や歴史の全体を代表するとは、どのような意味を持つのでしょうか？
クリーンアップ、OCR、正規化の決定は、その後の分析にどのように影響するのでしょうか？
再利用可能なコーパスには、どのようなメタデータと文書化が必要でしょうか？
利用可能なデジタルコレクションから欠落しているテキストは誰のものであり、なぜ欠落しているのでしょうか？

Key concepts

サンプリング
代表性
OCR
正規化
来歴
文書化

Key theories

データは与えられるものではなく、構築されるものである: Gitelmanとその寄稿者たちは、データは常に作られるもの（選択され、クリーンアップされ、枠組みが与えられる）であると主張し、「生データ」は誤称であり、すべてのデータセットはその構築の前提を帯びていると述べました。
代表性と文学コーパス: Underwoodは、デジタルコレクションの構成とバイアスが文学的変化に関する主張をどのように形成するかについて論じ、サンプリングと来歴を主要な方法論的関心事としました。
学術的議論としてのコレクション: Bodeは、計算論的文学史の基盤となるデジタルコレクション自体が解釈的な構築物であり、研究者はコレクションがどのように構築されたかを説明する必要があると主張しました。

History

計算論的テキスト分析が発展するにつれて、研究者たちは結果がその背後にあるコーパスに依存することをますます認識するようになりました。Gitelmanの2013年の著作は中立的なデータという考え方に異議を唱え、Bode (2018) とUnderwood (2019) は文学コレクションの構築とバイアスを明確にし、コーパスキュレーションを方法論的かつ批判的な関心事として確立しました。

Debates

代表性と利用可能性: コーパスは、デジタル化されたものから構築されることが多く、特定の言語、時代、規範的な作品に偏る傾向があるため、結論がどの程度一般化できるかという問題が生じます。

Key figures

Ted Underwood
Katherine Bode
Lisa Gitelman

Seminal works

gitelman2013
bode2018
underwood2019

Frequently asked questions

なぜ大量のテキストをダウンロードして分析するだけではいけないのですか？: その「山」の構成が結果を決定するからです。利用可能なコレクションは不均一であり、デジタル化されたものに偏りがあり、修正されていないOCRはエラーを引き起こします。選択、来歴、処理を文書化することは、計算による発見を解釈し信頼するために不可欠です。