모델이 레이블 없이 어떻게 학습할 수 있나요?

비지도 방법은 데이터에 이미 존재하는 구조, 예를 들어 어떤 점들이 서로 가까운지, 어떤 방향이 가장 많은 변동을 포함하는지, 또는 어떤 잠재 요인이 관측치를 생성했을 수 있는지 등을 활용합니다. 데이터 자체의 규칙성이 신호를 제공합니다.

비지도 학습을 평가하기 어려운 이유는 무엇인가요?

비교할 정답 대상이 없기 때문에, 성공 여부는 간접적으로 판단됩니다. 예를 들어 클러스터가 얼마나 해석 가능한지 또는 학습된 표현이 후속 지도 학습 작업에 얼마나 도움이 되는지 등으로 평가됩니다. 서로 다른 기준은 동일한 결과를 다르게 평가할 수 있습니다.

비지도 학습

비지도 학습은 레이블이 없는 데이터에서 구조를 발견하여, 모방할 대상 출력이 없이도 그룹화, 저차원 표현 및 잠재 요인을 찾아냅니다.

PaperMind(으)로 주제 찾기곧 제공Find papers & topics

Tools & resources

슬라이드 다운로드

Learn & explore

동영상곧 제공

Definition

비지도 학습은 입력값만으로 구조를 추론하는 것으로, 관련 대상값이 없습니다. 알고리즘은 클러스터 할당, 저차원 좌표 또는 관측된 데이터가 어떻게 발생했을 수 있는지를 설명하는 생성적 잠재 변수와 같이 데이터에 대한 간결한 설명을 찾습니다.

Scope

이 분야는 레이블이 없는 데이터로부터 학습하는 것을 다룹니다: 그룹으로 클러스터링, 차원 축소 및 매니폴드 학습, 기댓값-최대화 알고리즘으로 적합된 잠재 변수 및 혼합 모델, 밀도 추정, 그리고 데이터 자체에서 훈련 신호를 생성하는 현대적인 자기 지도 및 표현 학습을 포함합니다.

Sub-topics

Core questions

레이블이 없는 데이터에서 어떤 구조를 복구할 수 있는가?
자연스러운 그룹화 또는 클러스터는 어떻게 정의되고 발견되는가?
고차원 데이터는 몇 개의 좌표로 어떻게 요약될 수 있는가?
잠재 변수 모델은 숨겨진 원인을 통해 관측치를 어떻게 설명하는가?

Key theories

잠재 변수 모델 및 EM: 많은 비지도 모델은 데이터를 생성하는 숨겨진 변수를 가정하며, 기댓값-최대화 알고리즘은 잠재 변수를 추론하고 가능도를 높이기 위해 매개변수를 업데이트하는 과정을 번갈아 수행하여 이들을 적합시킵니다.
차원 축소: 주성분 분석 및 매니폴드 학습과 같은 방법은 가장 중요한 변동을 보존하는 저차원 표현을 찾아 시각화, 압축 및 노이즈 감소를 가능하게 합니다.
클러스터링 구조: 클러스터링은 유사한 항목들을 그룹으로 분할하며, 클러스터 내 거리, 확률적 혼합 또는 밀도를 통해 다양하게 공식화됩니다. 올바른 클러스터의 수나 형태에 대한 단일한 정의는 없습니다.

Clinical relevance

비지도 학습은 레이블이 부족하거나 없는 경우에 필수적이며, 고객 세분화, 이상 감지, 탐색적 데이터 분석, 그리고 현대의 지도 및 언어 시스템을 구동하는 표현의 사전 훈련을 지원합니다. 정답 대상이 없기 때문에 비지도 학습 결과의 평가는 그 자체로 미묘하고 중요한 문제입니다.

History

비지도 학습은 통계학의 클러스터링 및 요인 분석과 자기 조직화 신경망에 뿌리를 두고 있습니다. 1977년에 공식화된 기댓값-최대화 알고리즘은 잠재 변수 모델의 적합을 통합했으며, 최근 몇 년 동안 자기 지도 표현 학습은 레이블이 없는 데이터에 대한 대규모 모델 사전 훈련의 지배적인 패러다임이 되었습니다.

Debates

비지도 학습 결과 평가 방법: 레이블이 없으므로 단일한 정답이 없기 때문에, 클러스터링 또는 학습된 표현을 판단하는 것은 간접적인 기준, 후속 작업 성능 또는 인간의 해석에 의존하며, 서로 다른 유효성 측정 기준은 상충될 수 있습니다.

Key figures

Arthur Dempster
Donald Rubin
Geoffrey Hinton
Christopher Bishop

Seminal works

bishop2006
hastie2009
dempster1977

Frequently asked questions

모델이 레이블 없이 어떻게 학습할 수 있나요?: 비지도 방법은 데이터에 이미 존재하는 구조, 예를 들어 어떤 점들이 서로 가까운지, 어떤 방향이 가장 많은 변동을 포함하는지, 또는 어떤 잠재 요인이 관측치를 생성했을 수 있는지 등을 활용합니다. 데이터 자체의 규칙성이 신호를 제공합니다.
비지도 학습을 평가하기 어려운 이유는 무엇인가요?: 비교할 정답 대상이 없기 때문에, 성공 여부는 간접적으로 판단됩니다. 예를 들어 클러스터가 얼마나 해석 가능한지 또는 학습된 표현이 후속 지도 학습 작업에 얼마나 도움이 되는지 등으로 평가됩니다. 서로 다른 기준은 동일한 결과를 다르게 평가할 수 있습니다.