Hypothesis test

Thuật toán Multi-Armed Bandit (UCB, Thompson Sampling)

Thuật toán multi-armed bandit (MAB) là một khuôn khổ thử nghiệm thích ứng, phân bổ các lượt thử nghiệm tuần tự cho các "cánh tay" cạnh tranh nhằm giảm thiểu tổn thất tích lũy (cumulative regret) đồng thời tìm ra cánh tay nào hoạt động tốt nhất. Được Robbins hình thức hóa vào năm 1952 và được Auer et al. (2002) đưa ra các đảm bảo về thời gian hữu hạn, thuật toán này cân bằng giữa việc thăm dò các lựa chọn không chắc chắn và khai thác các lựa chọn tốt nhất hiện có — vượt trội hơn thử nghiệm A/B cổ điển bất cứ khi nào việc dừng sớm hoặc phân bổ nhạy cảm với chi phí là quan trọng.

Tìm chủ đề với PaperMindSắp ra mắtVideoSắp ra mắtTải xuống bản trình chiếu

Đọc toàn bộ phương pháp

Chỉ dành cho thành viên

Đăng nhập bằng tài khoản miễn phí để đọc phần này.

Đăng nhập

Bản đồ phương pháp

Lân cận của các phương pháp liên quan — chọn một nút để khám phá.

Thuật toán Multi-Armed Bandit (UCB, Thompson Sampling)

Kiểm định A/B (Thử nghiệ…Thiết kế thử nghiệm lâm…Nghiên cứu đối chứng ngẫ…Thiết kế thử nghiệm tuần…

Nguồn tài liệu

Auer, P., Cesa-Bianchi, N., & Fischer, P. (2002). Finite-Time Analysis of the Multiarmed Bandit Problem. Machine Learning, 47(2–3), 235–256. DOI: 10.1023/A:1013689704352 ↗
Russo, D., Van Roy, B., Kazerouni, A., Osband, I., & Wen, Z. (2018). A Tutorial on Thompson Sampling. Foundations and Trends in Machine Learning, 11(1), 1–96. DOI: 10.1561/2200000070 ↗

Cách trích dẫn trang này

ScholarGate. (2026, June 1). Multi-Armed Bandit (UCB, Thompson Sampling). ScholarGate. https://scholargate.app/vi/experimental-design/multiarm-bandit

Phương pháp nào?

Đặt phương pháp này bên cạnh những phương pháp gần gũi nhất với nó và đọc chúng song song — thư viện bày sách lên bàn; lựa chọn là của bạn.

Kiểm định A/B (Thử nghiệm kiểm soát trực tuyến)Thiết kế thí nghiệm↔ so sánh
Thiết kế thử nghiệm lâm sàng thích ứngThiết kế thí nghiệm↔ so sánh
Nghiên cứu đối chứng ngẫu nhiên (RCT)Thiết kế thí nghiệm↔ so sánh
Thiết kế thử nghiệm tuần tự / nhóm tuần tựThiết kế thí nghiệm↔ so sánh

So sánh song song →

Được tham chiếu bởi

Kiểm định A/B (Thử nghiệm kiểm soát trực tuyến)

Phát hiện lỗi trên trang này? Báo cáo hoặc đề xuất chỉnh sửa →