テキスト分類
テキスト分類は、ラベル付けされた事例から学習したモデルを用いて、文書を1つまたは複数の事前に定義されたカテゴリに自動的に割り当てる手法です。
Definition
テキスト分類とは、文書の用語に基づく表現を入力特徴として使用し、カテゴリラベルが既知の文書で訓練されたモデルによって、事前に定義されたセットから文書を1つまたは複数のカテゴリに割り当てるタスクです。
Scope
このトピックでは、テキストの教師あり分類について扱います。具体的には、単一ラベル、複数ラベル、または階層的分類としての問題定式化、ナイーブベイズ、Rocchioセントロイド法、k近傍法、サポートベクターマシンなどのテキストに適用される代表的な学習器、高次元テキストのための特徴選択、および分類器の評価が含まれます。これは、機械学習に基づきながらも、一般的な分類器理論よりもテキスト固有の考慮事項に焦点を当て、フィルタリングやルーティングなどの検索コンテキストで使用される分類を扱います。
Core questions
- テキスト分類は、単一ラベル、複数ラベル、または階層的分類としてどのように定式化されますか?
- 高次元でスパースなテキスト特徴に対して、どの学習アルゴリズムがうまく機能しますか?
- 大規模な語彙から情報量の多い特徴はどのように選択されますか?
- サポートベクターマシンはなぜテキストに特に適しているのですか?
- テキスト分類器はどのように評価され、クラスの不均衡はどのように処理されますか?
Key concepts
- 教師あり分類
- 単一ラベル vs. 複数ラベル分類
- ナイーブベイズ
- Rocchio / セントロイド分類
- k近傍法
- サポートベクターマシン
- 特徴選択
- 分類器評価(適合率、再現率、F1スコア)
Key theories
- ナイーブベイズテキスト分類
- 各文書の用語をクラスが与えられた場合に条件付き独立であるとモデル化することで、単純で高速な確率的分類器が得られます。その強い独立性仮定にもかかわらず、多くのテキストタスクで競争力のある性能を発揮します。
- テキストのためのサポートベクターマシン
- テキストは多くのスパースでほとんど関連性の高い特徴を持ち、クラスはこの空間で線形分離可能であることが多いため、マージンの大きいサポートベクターマシンは、特徴量エンジニアリングをほとんど行わずに高いテキスト分類精度を達成します。
Clinical relevance
テキスト分類は、電子メールのスパムフィルタリング、コンテンツモデレーション、トピックルーティングとタグ付け、感情分析、およびファセット検索とフィルタリングをサポートするカテゴリ化を可能にします。検索においては、継続的な情報ニーズに合致する文書を配信する文書フィルタリングおよびルーティングシステムの基盤となります。
History
自動テキスト分類は、手作業で構築されたルールシステムから始まり、1990年代に機械学習へと移行しました。Joachimsによる1998年のサポートベクターマシンがテキストにおいて優れていることの実証、およびSebastianiによる2002年の調査は、現代の教師ありパラダイムを確立しました。現在、同じタスクが表現学習およびニューラルテキストモデルの標準的なベンチマークとして機能しています。
Key figures
- Fabrizio Sebastiani
- Thorsten Joachims
- Yiming Yang
Related topics
Seminal works
- sebastiani2002
- joachims1998
- manning2008
Frequently asked questions
- ナイーブベイズは、その非現実的な独立性仮定にもかかわらず、なぜうまく機能するのですか?
- 用語が真に独立ではないにもかかわらず、ナイーブベイズの決定はしばしば正しいクラスに落ち着きます。これは、仮定が主に確率推定を歪めるだけで、クラスの相対的な順序付けを歪めることが少ないためです。また、限られたデータでも高速かつ堅牢であり、強力なベースラインとなります。
- 単一ラベル分類と複数ラベル分類の違いは何ですか?
- 単一ラベル分類は各文書を正確に1つのカテゴリに割り当てますが、複数ラベル分類は、記事が複数のトピックでタグ付けされる場合のように、文書が同時に複数のカテゴリに属することを可能にします。複数ラベルタスクでは、重複するラベルを処理できる手法と評価指標が必要です。