クラスター仮説とは何ですか？

クラスター仮説は、同じ情報ニーズに関連する文書は互いに類似している傾向があるというものです。これが真であれば、類似する文書をグループ化することで関連文書がまとまり、検索結果の改善や整理に利用できます。

ラベルがない場合、クラスタリングはどのように評価されますか？

内部尺度は、データから直接クラスターの凝集度と分離度を評価します。一方、外部尺度は、既知の分類がある場合に、その分類とクラスターを比較します。クラスタリングは教師なしであり、「正しさ」は意図された目的に依存するため、両方が使用されます。

テキストクラスタリング

テキストクラスタリングは、事前に定義されたカテゴリなしに、類似した内容の文書をクラスターにグループ化する手法であり、コレクション内の構造を明らかにし、閲覧や検索を支援します。

PaperMindでテーマを探す近日公開Find papers & topics

Tools & resources

スライドをダウンロード

Learn & explore

動画近日公開

Definition

テキストクラスタリングとは、文書コレクションを教師なしでグループに分割する手法であり、グループ内の文書は、文書表現に対する類似度尺度を使用し、事前に定義されたラベルなしに、他のグループの文書よりも互いに類似しているようにします。

Scope

このトピックでは、文書の教師なしグループ化について扱います。文書ベクトルに対するk-means法のようなフラットな分割手法、階層的凝集型クラスタリング、関連する類似度尺度と基準関数、および内部的および外部ラベルに対するクラスター品質の評価を含みます。また、クラスター仮説や検索結果クラスタリングなど、検索に特化した動機についても扱います。本稿では、クラスタリングを情報検索に役立つものとして扱い、教師あり分類や潜在的トピックモデルとは区別します。

Core questions

クラスタリングにおける文書間の類似性はどのように測定されますか？
k-means法のようなフラットな手法は、階層的凝集型クラスタリングとどのように異なりますか？
クラスターの数はどのように選択されますか？
正解ラベルがない場合、クラスターの品質はどのように評価されますか？
クラスター仮説は検索に何を意味しますか？

Key concepts

教師なしクラスタリング
文書類似度（コサイン類似度）
k-meansクラスタリング
階層的凝集型クラスタリング
基準関数
クラスター仮説
内部および外部クラスター評価
検索結果クラスタリング

Key theories

クラスター仮説: 同じクエリに関連する文書は互いに類似している傾向があるため、クラスタリングによって関連文書をグループ化でき、クラスターベースの検索と結果の整理を動機付けます。
フラットクラスタリングと階層的クラスタリング: k-means法のようなフラットな手法は、基準関数を最適化することによって、選択された数のクラスターに文書を分割します。一方、階層的凝集型手法は、クラスターの入れ子構造のツリーを構築し、基準の選択が文書クラスタリングの品質に強く影響します。

Clinical relevance

クラスタリングは、大規模な文書セットの探索と整理を支援します。例えば、検索結果をサブトピックごとにグループ化したり、ニュースの重複排除と整理、デジタルライブラリの構造化、探索的検索のための概要提供などです。クラスター仮説は、文書の類似性を利用する検索手法にも影響を与えます。

History

クラスタリングは初期から検索に応用されており、1970年代にvan Rijsbergenがクラスター仮説を提唱し、クラスターベースの検索の根拠としました。コレクションの増加に伴い、k-means法や二分法などのスケーラブルな手法や、クラスタリング基準の慎重な比較が標準となり、ウェブ検索の出力を整理する方法として結果クラスタリングが登場しました。

Key figures

C. J. van Rijsbergen
George Karypis
Christopher Manning

Seminal works

vanrijsbergen1979
manning2008
zhao2004

Frequently asked questions

クラスター仮説とは何ですか？: クラスター仮説は、同じ情報ニーズに関連する文書は互いに類似している傾向があるというものです。これが真であれば、類似する文書をグループ化することで関連文書がまとまり、検索結果の改善や整理に利用できます。
ラベルがない場合、クラスタリングはどのように評価されますか？: 内部尺度は、データから直接クラスターの凝集度と分離度を評価します。一方、外部尺度は、既知の分類がある場合に、その分類とクラスターを比較します。クラスタリングは教師なしであり、「正しさ」は意図された目的に依存するため、両方が使用されます。