자기 지도 학습은 비지도 학습과 어떻게 다른가요?

자기 지도 학습은 비지도 학습의 한 형태로, 입력의 일부를 숨기고 예측하는 것과 같이 데이터로부터 자동으로 생성된 목표를 가진 지도 학습 방식의 목표를 사용하여 모델을 훈련합니다. 사람의 레이블을 사용하지 않지만, 학습을 예측 문제로 구성합니다.

좋은 표현이 왜 그렇게 가치 있나요?

데이터가 본질적인 구조를 포착하는 표현으로 인코딩되면, 간단한 모델조차도 좋은 성능을 낼 수 있으며, 동일한 표현이 여러 작업에 사용될 수 있습니다. 레이블 없는 데이터로부터 이러한 전이 가능한 특징을 학습하는 것이 사전 학습을 매우 효과적으로 만드는 이유입니다.

자기 지도 학습 및 표현 학습

자기 지도 학습 및 표현 학습은 레이블이 없는 데이터로부터 예측 작업을 스스로 생성하여 유용한 특징을 만들고, 다양한 후속 문제에 전이될 수 있는 표현을 생성합니다.

PaperMind(으)로 주제 찾기곧 제공Find papers & topics

Tools & resources

슬라이드 다운로드

Learn & explore

동영상곧 제공

Definition

자기 지도 학습은 데이터의 숨겨진 부분을 예측하거나 증강된 두 가지 뷰를 동일한 항목으로 인식하는 것과 같이, 입력으로부터 자동으로 레이블이 파생되는 작업을 통해 모델을 훈련하여, 이후의 지도 학습 작업에 사용할 수 있는 범용적인 표현을 학습하게 합니다.

Scope

이 주제는 사람의 레이블 없이 표현을 학습하는 방법을 다룹니다: 입력을 압축하고 재구성하는 오토인코더, 관련 있는 뷰는 가깝게 하고 관련 없는 뷰는 멀리 떨어뜨리는 대조 학습 방법, 그리고 레이블 없는 데이터를 지도 학습 신호로 변환하는 사전 텍스트 또는 마스크 예측 작업 등이 포함됩니다. 좋은 표현이 왜 중요한지, 그리고 사전 학습된 특징이 여러 작업에 어떻게 전이되는지에 대해 다룹니다.

Core questions

레이블 없는 데이터로부터 지도 학습 방식의 훈련 신호를 어떻게 생성할 수 있는가?
학습된 표현을 유용하고 전이 가능하게 만드는 요인은 무엇인가?
대조 학습 목표와 재구성 학습 목표는 어떻게 다른가?
대규모 레이블 없는 코퍼스에 대한 사전 학습이 후속 작업에 어떻게 도움이 되는가?

Key theories

표현 학습: 분류기 선택보다는 학습된 표현의 품질이 성능을 결정하는 경우가 많으므로, 근본적인 변동 요인을 분리하는 특징을 학습하는 것이 핵심 목표입니다.
오토인코딩 및 재구성: 오토인코더는 병목 현상을 통해 입력을 재구성함으로써 압축된 코드를 학습하며, 노이즈 제거 오토인코더와 같은 변형은 손상된 입력을 재구성하여 견고한 특징을 학습합니다.
사전 학습 및 전이: 자기 지도 목표를 사용하여 대규모 레이블 없는 데이터셋으로 사전 학습된 모델은 광범위하게 유용한 특징을 학습하며, 이는 적은 레이블 데이터로도 많은 후속 작업에 전이될 수 있습니다. 이는 현대 시스템의 핵심 패러다임입니다.

Clinical relevance

자기 지도 사전 학습은 현대 언어 및 비전 시스템의 기반이며, 모델이 방대한 레이블 없는 코퍼스(말뭉치)로부터 지식을 흡수한 후 제한된 레이블을 가진 특정 작업에 적응할 수 있도록 합니다. 이는 강력한 성능을 위해 필요한 레이블 데이터의 양을 극적으로 줄여주며, 인공지능의 최근 발전에 주요한 원인이 됩니다.

History

표현 학습은 2000년대 오토인코더와 심층 신경망의 비지도 사전 학습으로부터 발전했습니다. 이후 언어 모델의 마스크 예측과 비전 분야의 대조 학습을 포함한 자기 지도 목표는 강력한 범용 표현을 학습하는 데 효과적임이 입증되었고, 대규모 모델 사전 학습의 지배적인 접근 방식이 되었습니다.

Key figures

Yoshua Bengio
Geoffrey Hinton
Yann LeCun

Seminal works

bengio2013
goodfellow2016
lecun2015

Frequently asked questions

자기 지도 학습은 비지도 학습과 어떻게 다른가요?: 자기 지도 학습은 비지도 학습의 한 형태로, 입력의 일부를 숨기고 예측하는 것과 같이 데이터로부터 자동으로 생성된 목표를 가진 지도 학습 방식의 목표를 사용하여 모델을 훈련합니다. 사람의 레이블을 사용하지 않지만, 학습을 예측 문제로 구성합니다.
좋은 표현이 왜 그렇게 가치 있나요?: 데이터가 본질적인 구조를 포착하는 표현으로 인코딩되면, 간단한 모델조차도 좋은 성능을 낼 수 있으며, 동일한 표현이 여러 작업에 사용될 수 있습니다. 레이블 없는 데이터로부터 이러한 전이 가능한 특징을 학습하는 것이 사전 학습을 매우 효과적으로 만드는 이유입니다.