分類はクラスタリングとどのように異なりますか？

分類は教師あり学習であり、グループは事前に既知であり、ラベル付けされた訓練サンプルが利用可能です。クラスタリングは教師なし学習であり、事前に定義されたラベルなしでグループを発見します。

ホールドアウトデータで誤差を推定するのはなぜですか？

分類器の適合に使用されたのと同じデータで測定された誤差は楽観的にバイアスがかかるため、真の予測性能を評価するには、交差検定またはテストセットからのサンプル外推定値が必要です。

分類と判別分析

分類と判別分析は、測定された特徴とラベル付けされた事例のサンプルを用いて、観測値を事前に定義されたグループに割り当てる多変量解析手法で構成されます。

PaperMindでテーマを探す近日公開Find papers & topics

Tools & resources

スライドをダウンロード

Learn & explore

動画近日公開

Definition

判別分析と分類は、誤分類の期待コストまたは誤差を最小限に抑えるために、多変量観測値をいくつかの既知のグループのいずれかに割り当てるルールの構築です。

Scope

この分野は、多変量観測値の教師あり分類を扱います。これには、フィッシャーの線形判別と、そのガウスモデル解釈、不均一なグループ共分散に対する二次判別分析、クラスメンバーシップ確率の直接モデルとしてのロジスティック判別、およびサポートベクターマシンなどのマージンベースの手法が含まれます。意思決定境界の構築、幾何学、および評価に焦点を当てています。

Sub-topics

Core questions

測定された特徴から、観測値をいくつかの既知のグループのいずれかにどのように割り当てるべきでしょうか？
どの決定境界が期待される誤分類コストを最小限に抑えるでしょうか？
線形境界が適切であるのはどのような場合で、二次または非線形境界が必要となるのはどのような場合でしょうか？
楽観的なバイアスなしに、分類器の性能はどのように推定されるでしょうか？

Key theories

ベイズ最適分類: 各観測値を最も高い事後確率を持つグループに割り当てることで、期待される誤分類誤差が最小化されます。パラメトリック判別手法は、分布の仮定の下でこれらの事後確率を推定します。
フィッシャーの線形判別: フィッシャーは、グループ内分散に対してグループ平均を最大に分離する特徴の線形結合を求めました。これにより、等しいガウス共分散の下ではベイズルールと一致する判別方向が得られます。

Clinical relevance

分類手法は、医療診断、信用スコアリング、種の識別、リモートセンシングによる土地被覆マッピングなど、多変量測定値から既知のカテゴリに事例を分類する必要があるあらゆる場所で使用されます。

History

この分野は、フィッシャーが1936年に分類学的測定に適用した線形判別から始まりました。確率的およびガウス的定式化が続き、ロジスティック判別はクラス確率の直接モデルを提供し、20世紀後半のマージンベースおよびカーネル手法の開発により、分類は高次元および非線形の設定に拡張されました。

Debates

生成的分類と識別的分類: 判別分析のような生成的（generative）手法は各クラス内の特徴分布をモデル化するのに対し、ロジスティック回帰やサポートベクターマシンのような識別的（discriminative）手法は境界またはクラス確率を直接モデル化します。それらの相対的な利点は、サンプルサイズと分布の仮定がどの程度成り立つかに依存します。

Key figures

Ronald A. Fisher
Vladimir Vapnik

Seminal works

fisher1936
hastie2009
johnson2007

Frequently asked questions

分類はクラスタリングとどのように異なりますか？: 分類は教師あり学習であり、グループは事前に既知であり、ラベル付けされた訓練サンプルが利用可能です。クラスタリングは教師なし学習であり、事前に定義されたラベルなしでグループを発見します。
ホールドアウトデータで誤差を推定するのはなぜですか？: 分類器の適合に使用されたのと同じデータで測定された誤差は楽観的にバイアスがかかるため、真の予測性能を評価するには、交差検定またはテストセットからのサンプル外推定値が必要です。