Hypothesis test

다중 팔 밴딧 (UCB, Thompson Sampling)

다중 팔 밴딧 (MAB)은 누적 불이익을 최소화하면서 동시에 어떤 팔이 가장 잘 수행하는지 학습하기 위해 경쟁하는 팔들에 걸쳐 시행을 순차적으로 할당하는 적응형 실험 프레임워크입니다. 1952년 Robbins에 의해 형식화되고 2002년 Auer 등에 의해 유한 시간 보장이 주어졌으며, 불확실한 옵션에 대한 탐색과 현재 알려진 최상의 옵션에 대한 활용 사이의 균형을 맞춥니다. 조기 중단이나 비용 민감 할당이 중요한 경우 고전적인 A/B 테스트보다 뛰어납니다.

PaperMind(으)로 주제 찾기곧 제공동영상곧 제공슬라이드 다운로드

방법 전문 읽기

회원 전용

무료 계정으로 로그인하면 이 섹션을 읽을 수 있습니다.

로그인

방법 지도

관련 방법들로 이루어진 인접 영역 — 노드를 선택해 살펴보세요.

다중 팔 밴딧 (UCB, Thompson Sampling)

A/B 테스트 (온라인 통제 실험)적응형 임상시험 설계 Randomized Controlled Tr…순차/그룹 순차 시험 설계

출처

Auer, P., Cesa-Bianchi, N., & Fischer, P. (2002). Finite-Time Analysis of the Multiarmed Bandit Problem. Machine Learning, 47(2–3), 235–256. DOI: 10.1023/A:1013689704352 ↗
Russo, D., Van Roy, B., Kazerouni, A., Osband, I., & Wen, Z. (2018). A Tutorial on Thompson Sampling. Foundations and Trends in Machine Learning, 11(1), 1–96. DOI: 10.1561/2200000070 ↗

이 페이지 인용 방법

ScholarGate. (2026, June 1). Multi-Armed Bandit (UCB, Thompson Sampling). ScholarGate. https://scholargate.app/ko/experimental-design/multiarm-bandit

어떤 방법일까요?

이 방법을 가장 가까운 동류의 방법들과 나란히 놓고 비교해 보세요 — 라이브러리는 책을 펼쳐 놓을 뿐, 선택은 여러분의 몫입니다.

A/B 테스트 (온라인 통제 실험)실험설계↔ 비교
적응형 임상시험 설계실험설계↔ 비교
Randomized Controlled Trial (RCT)실험설계↔ 비교
순차/그룹 순차 시험 설계실험설계↔ 비교

나란히 비교하기 →

이 방법을 참조하는 항목

A/B 테스트 (온라인 통제 실험)

이 페이지에서 오류를 발견하셨나요? 신고하거나 수정을 제안하세요 →