物体認識と検出
物体認識は画像内に何が存在するかを特定し、物体検出はさらに各インスタンスをバウンディングボックスまたは領域で局所化します。
PaperMindでテーマを探す近日公開Find papers & topics
Tools & resources
Learn & explore
動画近日公開
Definition
物体認識は画像または領域にカテゴリラベルを割り当てることであり、物体検出は画像内の各物体インスタンスを局所化し、ラベル付けする共同タスクです。
Scope
このトピックでは、画像分類、スライディングウィンドウと領域提案による検出、古典的なブーステッドカスケード顔検出器、そして現在認識を支配している畳み込みニューラルネットワーク、および進歩を推進する大規模なラベル付きデータセットとベンチマークの役割について扱います。
Core questions
- 画像内の物体のカテゴリはどのように決定されますか?
- 物体はどのように局所化され、分類されますか?
- どのような特徴とモデルが視点や外観を超えて一般化されますか?
- なぜ学習された表現が手作業で設計された特徴を凌駕したのですか?
Key concepts
- 画像分類
- バウンディングボックス検出
- 領域提案
- ブーステッドカスケード
- 畳み込みニューラルネットワーク
- ベンチマークデータセット
Key theories
- ブーステッドカスケード検出
- リアルタイム検出は、単純な矩形特徴と、非物体領域を迅速に拒否するカスケード状に配置されたブーステッド分類器を組み合わせることで達成されました。Viola-Jones顔検出器がその例です。
- 深層畳み込み認識
- 大規模なラベル付きデータセットで訓練された畳み込みニューラルネットワークは、階層的な視覚的特徴をエンドツーエンドで学習し、認識精度を大幅に向上させ、学習された表現を主要なアプローチとして確立しました。
Clinical relevance
認識と検出は、顔認識、自動運転車およびロボットの知覚、医用画像診断、コンテンツモデレーションと画像検索、小売および監視分析、そして多くの拡張現実アプリケーションを可能にします。
History
検出は、2001年頃の手作業による特徴とブーステッドカスケードから、パーツベースモデルへと移行し、2012年のImageNetにおける深層畳み込みネットワークの成功が、認識と検出における学習された表現への急速な転換を引き起こしました。
Debates
- 手作業で設計された特徴と学習された表現
- 何十年もの間、認識は勾配ヒストグラムなどの設計された特徴に依存していましたが、深層学習はこれらをデータから学習された特徴に置き換え、解釈可能性、データと計算要件、および堅牢性に関する疑問を提起し、これらは現在も活発な議論の対象となっています。
Key figures
- Paul Viola
- Michael Jones
- Geoffrey Hinton
Related topics
Seminal works
- viola2001
- krizhevsky2012
Frequently asked questions
- 認識と検出の違いは何ですか?
- 認識は画像に何があるか(例えば猫がいること)を述べますが、検出はそれに加えてどこにあるか(各猫の周りにボックスを描き、ラベル付けする)も述べ、複数のインスタンスを一度に見つけることができます。
- なぜ深層学習は認識をこれほど改善したのですか?
- 畳み込みネットワークは、手作業で設計された特徴に頼るのではなく、大規模なラベル付きデータセットから関連する視覚的特徴を直接学習します。これにより、手動で指定するのが難しいパターンを捉え、データと計算能力に応じてスケールアップすることができます。