ScholarGate
어시스턴트
Hypothesis test

다중 팔 밴딧 (UCB, Thompson Sampling)

다중 팔 밴딧 (MAB)은 누적 불이익을 최소화하면서 동시에 어떤 팔이 가장 잘 수행하는지 학습하기 위해 경쟁하는 팔들에 걸쳐 시행을 순차적으로 할당하는 적응형 실험 프레임워크입니다. 1952년 Robbins에 의해 형식화되고 2002년 Auer 등에 의해 유한 시간 보장이 주어졌으며, 불확실한 옵션에 대한 탐색과 현재 알려진 최상의 옵션에 대한 활용 사이의 균형을 맞춥니다. 조기 중단이나 비용 민감 할당이 중요한 경우 고전적인 A/B 테스트보다 뛰어납니다.

PaperMind(으)로 주제 찾기곧 제공동영상곧 제공슬라이드 다운로드

방법 전문 읽기

회원 전용

무료 계정으로 로그인하면 이 섹션을 읽을 수 있습니다.

로그인

방법 지도

관련 방법들로 이루어진 인접 영역 — 노드를 선택해 살펴보세요.

출처

  1. Auer, P., Cesa-Bianchi, N., & Fischer, P. (2002). Finite-Time Analysis of the Multiarmed Bandit Problem. Machine Learning, 47(2–3), 235–256. DOI: 10.1023/A:1013689704352
  2. Russo, D., Van Roy, B., Kazerouni, A., Osband, I., & Wen, Z. (2018). A Tutorial on Thompson Sampling. Foundations and Trends in Machine Learning, 11(1), 1–96. DOI: 10.1561/2200000070

이 페이지 인용 방법

ScholarGate. (2026, June 1). Multi-Armed Bandit (UCB, Thompson Sampling). ScholarGate. https://scholargate.app/ko/experimental-design/multiarm-bandit

어떤 방법일까요?

이 방법을 가장 가까운 동류의 방법들과 나란히 놓고 비교해 보세요 — 라이브러리는 책을 펼쳐 놓을 뿐, 선택은 여러분의 몫입니다.

나란히 비교하기

이 방법을 참조하는 항목

ScholarGateMulti-Armed Bandit (Multi-Armed Bandit (UCB, Thompson Sampling)). 2026-06-15에 다음에서 검색함: https://scholargate.app/ko/experimental-design/multiarm-bandit · 데이터셋: https://doi.org/10.5281/zenodo.20539026