Hàm kích hoạt là gì và tại sao nó cần thiết?

Hàm kích hoạt áp dụng một phép biến đổi phi tuyến tính cho tổng đầu vào có trọng số của một nơ-ron. Nếu không có nó, việc xếp chồng các lớp sẽ chỉ tạo ra một hàm tuyến tính khác, vì vậy tính phi tuyến tính là yếu tố cho phép các mạng sâu biểu diễn các mối quan hệ phức tạp, phi tuyến tính.

Nếu một lớp rộng có thể xấp xỉ bất kỳ hàm nào, tại sao lại cần mạng sâu?

Tính chất xấp xỉ phổ quát cho biết một mạng nông về nguyên tắc có thể phù hợp với bất kỳ hàm nào, nhưng nó có thể cần số lượng nơ-ron không thực tế. Các mạng sâu thường biểu diễn cùng các hàm đó một cách nhỏ gọn hơn nhiều và học được các đặc trưng phân cấp hữu ích, đó là lý do tại sao độ sâu được ưu tiên trong thực tế.

Kiến trúc Mạng Nơ-ron

Kiến trúc mạng nơ-ron quy định cách các nơ-ron nhân tạo được kết nối thành các lớp, định nghĩa họ các hàm mà một mạng có thể biểu diễn.

Tìm chủ đề với PaperMindSắp ra mắtFind papers & topics

Tools & resources

Tải xuống bản trình chiếu

Learn & explore

VideoSắp ra mắt

Definition

Kiến trúc mạng nơ-ron là sự sắp xếp các nơ-ron nhân tạo thành các lớp được kết nối, trong đó mỗi nơ-ron tính toán một hàm phi tuyến tính của tổng có trọng số các đầu vào của nó; kiến trúc xác định khả năng của mạng và các thiên kiến quy nạp mà nó mang lại cho một bài toán học máy.

Scope

Chủ đề này bao gồm các khối xây dựng và cấu trúc của mạng nơ-ron: nơ-ron nhân tạo với các đầu vào có trọng số và một hàm kích hoạt phi tuyến tính, các lớp truyền thẳng kết nối đầy đủ và mạng perceptron đa lớp, các hàm kích hoạt như sigmoid và đơn vị tuyến tính chỉnh lưu, và cách độ sâu, độ rộng, và khả năng kết nối định hình những gì một mạng có thể học. Nó giới thiệu tính chất xấp xỉ phổ quát và vai trò của việc lựa chọn kiến trúc.

Core questions

Một nơ-ron nhân tạo tính toán đầu ra của nó như thế nào?
Một mạng đa lớp có thể biểu diễn điều gì mà một lớp đơn không thể?
Các hàm kích hoạt ảnh hưởng đến quá trình học như thế nào?
Độ sâu và độ rộng đánh đổi khả năng với khả năng huấn luyện như thế nào?

Key theories

Xấp xỉ phổ quát: Một mạng truyền thẳng với một lớp ẩn đủ rộng có thể xấp xỉ bất kỳ hàm liên tục nào trên một miền bị chặn, thiết lập mạng nơ-ron như những bộ xấp xỉ hàm linh hoạt.
Hàm kích hoạt và tính phi tuyến tính: Các hàm kích hoạt phi tuyến tính là yếu tố mang lại sức mạnh cho các mạng đa lớp; đặc biệt, các đơn vị tuyến tính chỉnh lưu giúp dễ dàng luồng gradient và đã trở thành lựa chọn mặc định cho các mạng sâu.
Độ sâu như một phép hợp thành: Việc thêm các lớp tạo ra các phép biến đổi để mạng xây dựng các đặc trưng ngày càng trừu tượng, thường biểu diễn các hàm phức tạp hiệu quả hơn một lớp rộng duy nhất.

Clinical relevance

Việc lựa chọn kiến trúc là cách chính để tích hợp kiến thức tiên nghiệm về một vấn đề vào mô hình học sâu, từ các mạng kết nối đầy đủ cho dữ liệu tổng quát đến các cấu trúc chuyên biệt cho hình ảnh và chuỗi; việc hiểu nơ-ron nhân tạo và tính chất xấp xỉ phổ quát làm rõ cả sức mạnh và giới hạn của mạng nơ-ron.

History

Nơ-ron nhân tạo có nguồn gốc từ McCulloch và Pitts và perceptron của Rosenblatt. Phê bình của Minsky và Papert về các mạng một lớp đã làm chậm sự phát triển của lĩnh vực này cho đến khi các mạng đa lớp và lan truyền ngược làm sống lại nó, và kỷ nguyên học sâu đã mang đến các kiến trúc gồm hàng chục hoặc hàng trăm lớp được xây dựng từ các đơn vị tuyến tính chỉnh lưu và các thành phần khác.

Key figures

Frank Rosenblatt
Geoffrey Hinton
Yann LeCun

Seminal works

goodfellow2016
bishop2006
lecun2015

Frequently asked questions

Hàm kích hoạt là gì và tại sao nó cần thiết?: Hàm kích hoạt áp dụng một phép biến đổi phi tuyến tính cho tổng đầu vào có trọng số của một nơ-ron. Nếu không có nó, việc xếp chồng các lớp sẽ chỉ tạo ra một hàm tuyến tính khác, vì vậy tính phi tuyến tính là yếu tố cho phép các mạng sâu biểu diễn các mối quan hệ phức tạp, phi tuyến tính.
Nếu một lớp rộng có thể xấp xỉ bất kỳ hàm nào, tại sao lại cần mạng sâu?: Tính chất xấp xỉ phổ quát cho biết một mạng nông về nguyên tắc có thể phù hợp với bất kỳ hàm nào, nhưng nó có thể cần số lượng nơ-ron không thực tế. Các mạng sâu thường biểu diễn cùng các hàm đó một cách nhỏ gọn hơn nhiều và học được các đặc trưng phân cấp hữu ích, đó là lý do tại sao độ sâu được ưu tiên trong thực tế.