ScholarGate
Trợ lý

Kiểm định chéo

Kiểm định chéo ước tính mức độ tốt của một mô hình trong việc dự đoán dữ liệu mới bằng cách lặp lại việc điều chỉnh mô hình trên một phần của mẫu và đo lường sai số của nó trên phần còn lại được giữ lại.

Tìm chủ đề với PaperMindSắp ra mắtFind papers & topics
Tools & resources
Tải xuống bản trình chiếu
Learn & explore
VideoSắp ra mắt

Definition

Kiểm định chéo là một quy trình lấy mẫu lại ước tính sai số dự đoán ngoài mẫu của một mô hình bằng cách phân chia dữ liệu thành các tập con bổ sung, điều chỉnh trên một số tập con và đánh giá sai số dự đoán trên các tập con khác, sau đó lấy trung bình trên các phân vùng.

Scope

Chủ đề này bao gồm kiểm định chéo loại trừ một phần tử (leave-one-out) và k-fold, các lược đồ tập hợp kiểm định (validation-set) và kiểm định chéo lặp lại, việc sử dụng chúng để lựa chọn mô hình và lựa chọn tham số điều chỉnh, sự đánh đổi giữa độ chệch và phương sai trong ước tính sai số, và những cạm bẫy như rò rỉ thông tin và sự lạc quan của sai số trong mẫu. Vai trò của nó trong đánh giá dựa trên lấy mẫu lại được nhấn mạnh.

Core questions

  • Việc giữ lại dữ liệu và dự đoán nó ước tính sai số tổng quát hóa như thế nào?
  • Những sự đánh đổi nào phân biệt kiểm định chéo loại trừ một phần tử với kiểm định chéo k-fold?
  • Kiểm định chéo được sử dụng như thế nào để lựa chọn mô hình và điều chỉnh siêu tham số?
  • Những thực hành nào, chẳng hạn như tránh rò rỉ thông tin, là cần thiết để có được các ước tính hợp lệ?

Key concepts

  • Phân vùng k-fold
  • Kiểm định chéo loại trừ một phần tử
  • Tập hợp kiểm định
  • Sai số tổng quát hóa
  • Lựa chọn mô hình
  • Rò rỉ thông tin

Key theories

Đánh giá kiểm định chéo
Việc điều chỉnh trên một phần của dữ liệu và đánh giá trên một phần không trùng lặp sẽ đưa ra một ước tính sai số dự đoán mà, khi được tính trung bình trên các fold, sẽ xấp xỉ sai số của mô hình trên dữ liệu độc lập trong tương lai.
Độ chệch và phương sai trong ước tính sai số
Kiểm định chéo loại trừ một phần tử gần như không chệch nhưng có thể có phương sai cao, trong khi k-fold với k vừa phải đánh đổi một độ chệch nhỏ tăng lên để có phương sai thấp hơn, hướng dẫn lựa chọn phổ biến là năm hoặc mười fold.

Clinical relevance

Kiểm định chéo là công cụ tiêu chuẩn để lựa chọn giữa các mô hình, điều chỉnh quy tắc hóa (regularization) và các siêu tham số khác, và báo cáo hiệu suất dự đoán trung thực; nó là trung tâm của học thống kê và thực hành học máy trong các ngành khoa học dựa trên dữ liệu.

History

Các ý tưởng kiểm định chéo đã được Stone và Geisser chính thức hóa vào năm 1974 như một cách có nguyên tắc để đánh giá và lựa chọn các mô hình dự đoán; sự phát triển bùng nổ của học thống kê và học máy đã khiến kiểm định chéo k-fold trở thành một lựa chọn mặc định thường xuyên để đánh giá mô hình.

Debates

Độ chệch và phương sai của ước tính kiểm định chéo
Vẫn còn những cuộc thảo luận về số lượng fold nên sử dụng và cách để có được các ước tính độ bất định hợp lệ cho sai số kiểm định chéo, vì các fold chồng chéo và các ước tính sai số thu được có tương quan với nhau.

Key figures

  • Mervyn Stone
  • Seymour Geisser
  • Trevor Hastie
  • Robert Tibshirani

Related topics

Seminal works

  • stone1974
  • hastie2009

Frequently asked questions

Tại sao không chỉ đo lường sai số trên dữ liệu được sử dụng để điều chỉnh mô hình?
Sai số trong mẫu là lạc quan vì mô hình đã được điều chỉnh cho chính dữ liệu đó, do đó nó đánh giá thấp sai số trên dữ liệu mới. Kiểm định chéo đánh giá các dự đoán trên dữ liệu mà mô hình không thấy trong quá trình điều chỉnh, đưa ra một ước tính trung thực hơn.
Tôi nên sử dụng bao nhiêu fold?
Năm hoặc mười fold là những lựa chọn phổ biến cân bằng giữa độ chệch và phương sai, đồng thời giữ cho tính toán có thể quản lý được. Kiểm định chéo loại trừ một phần tử sử dụng số lượng fold bằng số lượng quan sát, mang lại độ chệch thấp nhưng phương sai cao hơn và chi phí lớn hơn.

Methods for this concept

Related concepts