Sự khác biệt giữa nhận dạng và phát hiện là gì?

Nhận dạng cho biết có gì trong một hình ảnh, chẳng hạn như nó chứa một con mèo, trong khi phát hiện cũng cho biết ở đâu, vẽ một hộp xung quanh mỗi con mèo và gán nhãn cho nó, và có thể tìm thấy nhiều trường hợp cùng một lúc.

Tại sao học sâu lại cải thiện nhận dạng nhiều đến vậy?

Các mạng tích chập học các đặc trưng thị giác liên quan trực tiếp từ các tập dữ liệu được gán nhãn lớn thay vì dựa vào các đặc trưng được thiết kế thủ công, nắm bắt các mẫu khó xác định thủ công và mở rộng quy mô với dữ liệu và tính toán.

Nhận dạng và Phát hiện Đối tượng

Nhận dạng đối tượng xác định những gì có trong một hình ảnh, và phát hiện đối tượng bổ sung thêm việc định vị từng trường hợp bằng một hộp giới hạn hoặc vùng.

Tìm chủ đề với PaperMindSắp ra mắtFind papers & topics

Tools & resources

Tải xuống bản trình chiếu

Learn & explore

VideoSắp ra mắt

Definition

Nhận dạng đối tượng là việc gán nhãn danh mục cho hình ảnh hoặc các vùng, và phát hiện đối tượng là nhiệm vụ chung của việc định vị và gán nhãn từng trường hợp đối tượng trong một hình ảnh.

Scope

Chủ đề này bao gồm phân loại hình ảnh, phát hiện cửa sổ trượt và đề xuất vùng, bộ phát hiện khuôn mặt thác tăng cường cổ điển, và các mạng nơ-ron tích chập hiện đang thống trị việc nhận dạng, cùng với vai trò của các tập dữ liệu được gán nhãn lớn và các tiêu chuẩn trong việc thúc đẩy tiến bộ.

Core questions

Làm thế nào để xác định danh mục của một đối tượng trong hình ảnh?
Làm thế nào để định vị và phân loại đối tượng?
Những đặc trưng và mô hình nào có thể tổng quát hóa qua các góc nhìn và hình thức khác nhau?
Tại sao các biểu diễn được học lại vượt trội hơn các đặc trưng được thiết kế thủ công?

Key concepts

Phân loại hình ảnh
Phát hiện hộp giới hạn
Đề xuất vùng
Thác tăng cường
Mạng nơ-ron tích chập
Tập dữ liệu chuẩn

Key theories

Phát hiện thác tăng cường: Phát hiện thời gian thực đạt được bằng cách kết hợp các đặc trưng hình chữ nhật đơn giản với một bộ phân loại tăng cường được sắp xếp theo một thác để nhanh chóng loại bỏ các vùng không phải đối tượng, điển hình là bộ phát hiện khuôn mặt Viola-Jones.
Nhận dạng tích chập sâu: Các mạng nơ-ron tích chập được huấn luyện trên các tập dữ liệu được gán nhãn lớn học các đặc trưng thị giác phân cấp từ đầu đến cuối, cải thiện đáng kể độ chính xác nhận dạng và thiết lập các biểu diễn được học làm phương pháp chủ đạo.

Clinical relevance

Nhận dạng và phát hiện cho phép nhận dạng khuôn mặt, nhận thức của phương tiện tự hành và robot, chẩn đoán hình ảnh y tế, kiểm duyệt nội dung và tìm kiếm hình ảnh, phân tích bán lẻ và giám sát, và nhiều ứng dụng thực tế tăng cường.

History

Phát hiện đã chuyển từ các đặc trưng thủ công và các thác tăng cường khoảng năm 2001 sang các mô hình dựa trên bộ phận, và thành công năm 2012 của các mạng tích chập sâu trên ImageNet đã kích hoạt một sự thay đổi nhanh chóng sang các biểu diễn được học trong nhận dạng và phát hiện.

Debates

Các đặc trưng thủ công so với các biểu diễn được học: Trong nhiều thập kỷ, nhận dạng dựa vào các đặc trưng được thiết kế như biểu đồ gradient; học sâu đã thay thế chúng bằng các đặc trưng được học từ dữ liệu, đặt ra các câu hỏi về khả năng giải thích, yêu cầu dữ liệu và tính toán, và độ bền vững vẫn còn đang được tranh luận.

Key figures

Paul Viola
Michael Jones
Geoffrey Hinton

Seminal works

viola2001
krizhevsky2012

Frequently asked questions

Sự khác biệt giữa nhận dạng và phát hiện là gì?: Nhận dạng cho biết có gì trong một hình ảnh, chẳng hạn như nó chứa một con mèo, trong khi phát hiện cũng cho biết ở đâu, vẽ một hộp xung quanh mỗi con mèo và gán nhãn cho nó, và có thể tìm thấy nhiều trường hợp cùng một lúc.
Tại sao học sâu lại cải thiện nhận dạng nhiều đến vậy?: Các mạng tích chập học các đặc trưng thị giác liên quan trực tiếp từ các tập dữ liệu được gán nhãn lớn thay vì dựa vào các đặc trưng được thiết kế thủ công, nắm bắt các mẫu khó xác định thủ công và mở rộng quy mô với dữ liệu và tính toán.