認識と検出の違いは何ですか？

認識は画像に何があるか（例えば猫がいること）を述べますが、検出はそれに加えてどこにあるか（各猫の周りにボックスを描き、ラベル付けする）も述べ、複数のインスタンスを一度に見つけることができます。

なぜ深層学習は認識をこれほど改善したのですか？

畳み込みネットワークは、手作業で設計された特徴に頼るのではなく、大規模なラベル付きデータセットから関連する視覚的特徴を直接学習します。これにより、手動で指定するのが難しいパターンを捉え、データと計算能力に応じてスケールアップすることができます。

物体認識は画像内に何が存在するかを特定し、物体検出はさらに各インスタンスをバウンディングボックスまたは領域で局所化します。

PaperMindでテーマを探す近日公開Find papers & topics

Tools & resources

Learn & explore

動画近日公開

物体認識は画像または領域にカテゴリラベルを割り当てることであり、物体検出は画像内の各物体インスタンスを局所化し、ラベル付けする共同タスクです。

このトピックでは、画像分類、スライディングウィンドウと領域提案による検出、古典的なブーステッドカスケード顔検出器、そして現在認識を支配している畳み込みニューラルネットワーク、および進歩を推進する大規模なラベル付きデータセットとベンチマークの役割について扱います。

ブーステッドカスケード検出: リアルタイム検出は、単純な矩形特徴と、非物体領域を迅速に拒否するカスケード状に配置されたブーステッド分類器を組み合わせることで達成されました。Viola-Jones顔検出器がその例です。
深層畳み込み認識: 大規模なラベル付きデータセットで訓練された畳み込みニューラルネットワークは、階層的な視覚的特徴をエンドツーエンドで学習し、認識精度を大幅に向上させ、学習された表現を主要なアプローチとして確立しました。

認識と検出は、顔認識、自動運転車およびロボットの知覚、医用画像診断、コンテンツモデレーションと画像検索、小売および監視分析、そして多くの拡張現実アプリケーションを可能にします。

検出は、2001年頃の手作業による特徴とブーステッドカスケードから、パーツベースモデルへと移行し、2012年のImageNetにおける深層畳み込みネットワークの成功が、認識と検出における学習された表現への急速な転換を引き起こしました。

手作業で設計された特徴と学習された表現: 何十年もの間、認識は勾配ヒストグラムなどの設計された特徴に依存していましたが、深層学習はこれらをデータから学習された特徴に置き換え、解釈可能性、データと計算要件、および堅牢性に関する疑問を提起し、これらは現在も活発な議論の対象となっています。

認識と検出の違いは何ですか？: 認識は画像に何があるか（例えば猫がいること）を述べますが、検出はそれに加えてどこにあるか（各猫の周りにボックスを描き、ラベル付けする）も述べ、複数のインスタンスを一度に見つけることができます。
なぜ深層学習は認識をこれほど改善したのですか？: 畳み込みネットワークは、手作業で設計された特徴に頼るのではなく、大規模なラベル付きデータセットから関連する視覚的特徴を直接学習します。これにより、手動で指定するのが難しいパターンを捉え、データと計算能力に応じてスケールアップすることができます。