ScholarGate
Trợ lý
Hypothesis test

Thuật toán Multi-Armed Bandit (UCB, Thompson Sampling)

Thuật toán multi-armed bandit (MAB) là một khuôn khổ thử nghiệm thích ứng, phân bổ các lượt thử nghiệm tuần tự cho các "cánh tay" cạnh tranh nhằm giảm thiểu tổn thất tích lũy (cumulative regret) đồng thời tìm ra cánh tay nào hoạt động tốt nhất. Được Robbins hình thức hóa vào năm 1952 và được Auer et al. (2002) đưa ra các đảm bảo về thời gian hữu hạn, thuật toán này cân bằng giữa việc thăm dò các lựa chọn không chắc chắn và khai thác các lựa chọn tốt nhất hiện có — vượt trội hơn thử nghiệm A/B cổ điển bất cứ khi nào việc dừng sớm hoặc phân bổ nhạy cảm với chi phí là quan trọng.

Tìm chủ đề với PaperMindSắp ra mắtVideoSắp ra mắtTải xuống bản trình chiếu

Đọc toàn bộ phương pháp

Chỉ dành cho thành viên

Đăng nhập bằng tài khoản miễn phí để đọc phần này.

Đăng nhập

Bản đồ phương pháp

Lân cận của các phương pháp liên quan — chọn một nút để khám phá.

Nguồn tài liệu

  1. Auer, P., Cesa-Bianchi, N., & Fischer, P. (2002). Finite-Time Analysis of the Multiarmed Bandit Problem. Machine Learning, 47(2–3), 235–256. DOI: 10.1023/A:1013689704352
  2. Russo, D., Van Roy, B., Kazerouni, A., Osband, I., & Wen, Z. (2018). A Tutorial on Thompson Sampling. Foundations and Trends in Machine Learning, 11(1), 1–96. DOI: 10.1561/2200000070

Cách trích dẫn trang này

ScholarGate. (2026, June 1). Multi-Armed Bandit (UCB, Thompson Sampling). ScholarGate. https://scholargate.app/vi/experimental-design/multiarm-bandit

Phương pháp nào?

Đặt phương pháp này bên cạnh những phương pháp gần gũi nhất với nó và đọc chúng song song — thư viện bày sách lên bàn; lựa chọn là của bạn.

So sánh song song

Được tham chiếu bởi

ScholarGateMulti-Armed Bandit (Multi-Armed Bandit (UCB, Thompson Sampling)). Truy cập ngày 2026-06-15 từ https://scholargate.app/vi/experimental-design/multiarm-bandit · Bộ dữ liệu: https://doi.org/10.5281/zenodo.20539026