В чем разница между распознаванием и обнаружением?

Распознавание говорит, что находится на изображении, например, что оно содержит кошку, в то время как обнаружение также говорит, где, рисуя рамку вокруг каждой кошки и помечая ее, и может найти несколько экземпляров одновременно.

Почему глубокое обучение так сильно улучшило распознавание?

Сверточные сети изучают соответствующие визуальные признаки непосредственно из больших размеченных наборов данных вместо того, чтобы полагаться на разработанные вручную, захватывая паттерны, которые трудно задать вручную, и масштабируясь с данными и вычислениями.

Распознавание и обнаружение объектов

Распознавание объектов определяет, что присутствует на изображении, а обнаружение объектов дополнительно локализует каждый экземпляр с помощью ограничивающей рамки или области.

Найти тему в PaperMindСкороFind papers & topics

Tools & resources

Скачать слайды

Learn & explore

ВидеоСкоро

Definition

Распознавание объектов — это присвоение категорийных меток изображениям или областям, а обнаружение объектов — это совместная задача локализации и маркировки каждого экземпляра объекта на изображении.

Scope

Эта тема охватывает классификацию изображений, обнаружение с помощью скользящего окна и предложений регионов, классический бустинг-каскадный детектор лиц и сверточные нейронные сети, которые в настоящее время доминируют в распознавании, а также роль больших размеченных наборов данных и бенчмарков в стимулировании прогресса.

Core questions

Как определяется категория объекта на изображении?
Как объекты локализуются и классифицируются?
Какие признаки и модели обобщаются по отношению к точке обзора и внешнему виду?
Почему обучаемые представления превзошли признаки, разработанные вручную?

Key concepts

Классификация изображений
Обнаружение с помощью ограничивающей рамки
Предложения регионов
Бустинг-каскады
Сверточные нейронные сети
Эталонные наборы данных

Key theories

Обнаружение с помощью бустинг-каскадов: Обнаружение в реальном времени было достигнуто путем объединения простых прямоугольных признаков с бустинг-классификатором, расположенным в каскаде, который быстро отсеивает области, не являющиеся объектами, что проиллюстрировано детектором лиц Виолы-Джонса.
Глубокое сверточное распознавание: Сверточные нейронные сети, обученные на больших размеченных наборах данных, обучаются иерархическим визуальным признакам от начала до конца, резко улучшая точность распознавания и утверждая обучаемые представления как доминирующий подход.

Clinical relevance

Распознавание и обнаружение обеспечивают распознавание лиц, восприятие автономных транспортных средств и робототехники, диагностику медицинских изображений, модерацию контента и поиск изображений, аналитику розничной торговли и наблюдения, а также многие приложения дополненной реальности.

History

Обнаружение перешло от созданных вручную признаков и бустинг-каскадов около 2001 года к моделям, основанным на частях, а успех глубоких сверточных сетей на ImageNet в 2012 году вызвал быстрый переход к обучаемым представлениям в распознавании и обнаружении.

Debates

Признаки, созданные вручную, против обучаемых представлений: В течение десятилетий распознавание основывалось на разработанных признаках, таких как гистограммы градиентов; глубокое обучение заменило их признаками, извлеченными из данных, что подняло вопросы об интерпретируемости, требованиях к данным и вычислениям, а также надежности, которые остаются актуальными.

Key figures

Paul Viola
Michael Jones
Geoffrey Hinton

Seminal works

viola2001
krizhevsky2012

Frequently asked questions

В чем разница между распознаванием и обнаружением?: Распознавание говорит, что находится на изображении, например, что оно содержит кошку, в то время как обнаружение также говорит, где, рисуя рамку вокруг каждой кошки и помечая ее, и может найти несколько экземпляров одновременно.
Почему глубокое обучение так сильно улучшило распознавание?: Сверточные сети изучают соответствующие визуальные признаки непосредственно из больших размеченных наборов данных вместо того, чтобы полагаться на разработанные вручную, захватывая паттерны, которые трудно задать вручную, и масштабируясь с данными и вычислениями.