Machine learningDeep learning / NLP / CV

Self-supervised Vision Transformer

Self-supervised Vision Transformer (SSL-ViT)는 Vision Transformer 아키텍처에 마스크된 패치 예측(MAE) 또는 레이블 없는 자기 증류(DINO)와 같은 자기 지도 사전 학습 목표를 적용하여, 특정 작업에 대한 미세 조정 전에 대규모 레이블 없는 이미지 코퍼스로부터 강력한 시각적 표현을 학습할 수 있도록 합니다.

MethodMind에서 열기곧 제공동영상곧 제공Download slides

방법 전문 읽기

회원 전용

무료 계정으로 로그인하면 이 섹션을 읽을 수 있습니다.

로그인

Method map

The neighbourhood of related methods — select a node to explore.

Self-supervised Vision Transformer

미세 조정된 비전 트랜스포머 멀티모달 비전 트랜스포머 자가 지도 합성곱 신경망 Vision Transformer 설명 가능한 비전 트랜스포머(Explaina…픽셀 단위의 수동 주석 마스크에 의존하지 않…준지도 학습 인스턴스 분할 Semi-supervised Vision T…

출처

Caron, M., Touvron, H., Misra, I., Jegou, H., Mairal, J., Bojanowski, P., & Joulin, A. (2021). Emerging Properties in Self-Supervised Vision Transformers. Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), 9650–9660. link ↗
He, K., Chen, X., Xie, S., Li, Y., Dollar, P., & Girshick, R. (2022). Masked Autoencoders Are Scalable Vision Learners. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 16000–16009. link ↗

이 페이지 인용 방법

ScholarGate. (2026, June 3). Self-supervised Vision Transformer (SSL-ViT). ScholarGate. https://scholargate.app/ko/deep-learning/self-supervised-vision-transformer

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side →

이 방법을 참조하는 항목

설명 가능한 비전 트랜스포머(Explainable Vision Transformer)자가 지도 합성곱 신경망 픽셀 단위의 수동 주석 마스크에 의존하지 않고 이미지의 모든 픽셀에 클래스 레이블을 할당하도록 학습하는 자기 지도 의미론적 분할.준지도 학습 인스턴스 분할 Semi-supervised Vision Transformer

이 페이지에서 오류를 발견하셨나요? 신고하거나 수정을 제안하세요 →

방법 전문 읽기

Method map

출처

이 페이지 인용 방법

관련 방법

Which method?

이 방법을 참조하는 항목