Machine learningDeep learning / NLP / CV
Self-supervised Vision Transformer
Self-supervised Vision Transformer (SSL-ViT)는 Vision Transformer 아키텍처에 마스크된 패치 예측(MAE) 또는 레이블 없는 자기 증류(DINO)와 같은 자기 지도 사전 학습 목표를 적용하여, 특정 작업에 대한 미세 조정 전에 대규모 레이블 없는 이미지 코퍼스로부터 강력한 시각적 표현을 학습할 수 있도록 합니다.
방법 전문 읽기
회원 전용
로그인무료 계정으로 로그인하면 이 섹션을 읽을 수 있습니다.
Method map
The neighbourhood of related methods — select a node to explore.
출처
- Caron, M., Touvron, H., Misra, I., Jegou, H., Mairal, J., Bojanowski, P., & Joulin, A. (2021). Emerging Properties in Self-Supervised Vision Transformers. Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), 9650–9660. link ↗
- He, K., Chen, X., Xie, S., Li, Y., Dollar, P., & Girshick, R. (2022). Masked Autoencoders Are Scalable Vision Learners. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 16000–16009. link ↗
이 페이지 인용 방법
ScholarGate. (2026, June 3). Self-supervised Vision Transformer (SSL-ViT). ScholarGate. https://scholargate.app/ko/deep-learning/self-supervised-vision-transformer
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- 미세 조정된 비전 트랜스포머딥러닝↔ compare
- 멀티모달 비전 트랜스포머딥러닝↔ compare
- 자가 지도 합성곱 신경망딥러닝↔ compare
- Vision Transformer딥러닝↔ compare