Thuật toán Multi-Armed Bandit (UCB, Thompson Sampling)
Thuật toán multi-armed bandit (MAB) là một khuôn khổ thử nghiệm thích ứng, phân bổ các lượt thử nghiệm tuần tự cho các "cánh tay" cạnh tranh nhằm giảm thiểu tổn thất tích lũy (cumulative regret) đồng thời tìm ra cánh tay nào hoạt động tốt nhất. Được Robbins hình thức hóa vào năm 1952 và được Auer et al. (2002) đưa ra các đảm bảo về thời gian hữu hạn, thuật toán này cân bằng giữa việc thăm dò các lựa chọn không chắc chắn và khai thác các lựa chọn tốt nhất hiện có — vượt trội hơn thử nghiệm A/B cổ điển bất cứ khi nào việc dừng sớm hoặc phân bổ nhạy cảm với chi phí là quan trọng.
Đọc toàn bộ phương pháp
Đăng nhập bằng tài khoản miễn phí để đọc phần này.
Bản đồ phương pháp
Lân cận của các phương pháp liên quan — chọn một nút để khám phá.
Nguồn tài liệu
- Auer, P., Cesa-Bianchi, N., & Fischer, P. (2002). Finite-Time Analysis of the Multiarmed Bandit Problem. Machine Learning, 47(2–3), 235–256. DOI: 10.1023/A:1013689704352 ↗
- Russo, D., Van Roy, B., Kazerouni, A., Osband, I., & Wen, Z. (2018). A Tutorial on Thompson Sampling. Foundations and Trends in Machine Learning, 11(1), 1–96. DOI: 10.1561/2200000070 ↗
Cách trích dẫn trang này
ScholarGate. (2026, June 1). Multi-Armed Bandit (UCB, Thompson Sampling). ScholarGate. https://scholargate.app/vi/experimental-design/multiarm-bandit
Phương pháp nào?
Đặt phương pháp này bên cạnh những phương pháp gần gũi nhất với nó và đọc chúng song song — thư viện bày sách lên bàn; lựa chọn là của bạn.
- Kiểm định A/B (Thử nghiệm kiểm soát trực tuyến)Thiết kế thí nghiệm↔ so sánh
- Thiết kế thử nghiệm lâm sàng thích ứngThiết kế thí nghiệm↔ so sánh
- Nghiên cứu đối chứng ngẫu nhiên (RCT)Thiết kế thí nghiệm↔ so sánh
- Thiết kế thử nghiệm tuần tự / nhóm tuần tựThiết kế thí nghiệm↔ so sánh
Được tham chiếu bởi
Phát hiện lỗi trên trang này? Báo cáo hoặc đề xuất chỉnh sửa →