Machine learningDeep learning / NLP / CV

Öz-denetimli Görsel Transformer

Self-supervised Vision Transformer (SSL-ViT) · Ayrıca şöyle bilinir: SSL-ViT, self-supervised ViT, unsupervised ViT pre-training, vision transformer self-supervised pre-training

Öz-denetimli Görsel Transformer (SSL-ViT), maskelenmiş yama tahmini (MAE) veya etiketsiz öz-damıtma (DINO) gibi öz-denetimli ön eğitim hedeflerini Görsel Transformer mimarisine uygulayarak, herhangi bir göreve özgü ince ayardan önce büyük etiketlenmemiş görüntü kümelerinden güçlü görsel temsillerin öğrenilmesini sağlar.

Araçlar & kaynaklar

Slaytları indir

Öğren & keşfet

Tam yöntemi oku

Yalnızca üyeler

Bu bölümü okumak için ücretsiz hesapla giriş yapın.

Giriş yap

Yöntem haritası

İlişkili yöntemlerin komşuluğu — keşfetmek için bir düğüm seçin.

Öz-denetimli Görsel Transformer

İnce Ayarlı Vision Trans…Öz-Denetimli Evrişimsel…Vision Transformer Açıklanabilir Vision Tra…Öz-denetimli Anlamsal Bö…Yarı denetimli Görsel Dö…

Ne zaman kullanılır

Etiketlenmemiş büyük görüntü havuzlarına erişiminiz olduğunda ancak hedef göreviniz için sınırlı etiketli örneğiniz olduğunda öz-denetimli ViT ön eğitimini seçin. Özellikle tıbbi görüntüleme, uydu görüntüleme ve alana özgü uygulamalarda, uzman ek açıklaması maliyetli olduğunda etkilidir. Hedef alan ön eğitim kümesiyle eşleştiğinde üstündür. Etiketli veri kümeniz zaten büyükse (sınıf başına binlerce örnek) ve standart bir ViT'nin tam denetimli ince ayarı mümkünse veya hesaplama bütçesi çok kısıtlıysa — öz-denetimli ön eğitim pahalıdır — bundan kaçının. Görüntüleriniz çok küçük veya düşük çözünürlüklüyse de kaçının, çünkü yama tabanlı ViT'ler yeterli mekansal çözünürlüğe ihtiyaç duyar.

Güçlü yönler & sınırlılıklar

Güçlü yönler

Ön eğitim sırasında herhangi bir etiketli veri gerektirmeden güçlü görsel temsiller öğrenir.
Görüntü sınıflandırma, segmentasyon ve algılama kıyaslamalarında son teknoloji performansı elde eder.
Yeni alanlara çok az etiketli örnekle (az örnekli ayar) güçlü bir şekilde aktarılır.
DINO tabanlı özellikler, dikkat haritaları aracılığıyla anlamsal segmentasyon gibi şaşırtıcı ortaya çıkan özellikler gösterir.
Ölçeklenebilir: daha büyük etiketlenmemiş veri kümeleri ve daha büyük model boyutları tutarlı bir şekilde temsil kalitesini artırır.
Tıp ve uzaktan algılama gibi etiket kıtlığı olan alanlarda ek açıklama maliyetini önemli ölçüde azaltır.

Sınırlılıklar

Ön eğitim hesaplama açısından yoğundur, önemli GPU kaynakları ve büyük görüntü veri kümeleri gerektirir.
Yama tabanlı belirteçleme, görüntü çözünürlüğüne duyarlıdır; çok düşük çözünürlüklü girdiler temsil kalitesini düşürür.
MAE tabanlı yaklaşımlar, tüm görüntü alanlarına uymayabilecek yüksek maskeleme oranlarına (örneğin, %75) dayanır.
Denetimli temellere göre kazançlar, etiketli veri bol olduğunda azalır.
Hiperparametre hassasiyeti (maskeleme oranı, artırma gücü, öğretmen momentumu) dikkatli ayar gerektirir.

SSS

DINO ve MAE arasındaki fark nedir?

DINO bir öz-damıtma yöntemidir: bir öğrenci ViT, etiket kullanmadan aynı görüntünün farklı artırılmış görünümleri üzerinde momentumla güncellenen bir öğretmen ViT'nin çıktılarını eşleştirmeyi öğrenir. MAE bir yeniden yapılandırma yöntemidir: rastgele yamalar maskelenir ve model eksik piksel değerlerini yeniden yapılandırmayı öğrenir. Her ikisi de etiketsiz çalışır, ancak DINO yoğun görevler için anlamsal olarak daha zengin özellikler üretme eğilimindeyken, MAE çok büyük modellere daha kolay ölçeklenir.

Öz-denetimli ViT ön eğitimi için ne kadar etiketlenmemiş veriye ihtiyacım var?

Uygulamada, denetimli temellere göre güçlü faydalar görmek için yüz binlerce ila milyonlarca görüntü önerilir. ~10.000'den az alan görüntüsüyle, ImageNet üzerinde önceden eğitilmiş (örneğin, DINO-ViT-B veya MAE-ViT-L) halka açık bir öz-denetimli kontrol noktasını ince ayarlamak, sıfırdan ön eğitimden daha pratiktir.

Öz-denetimli ViT özelliklerini herhangi bir ince ayar yapmadan kullanabilir miyim?

Evet — yaygın bir değerlendirme doğrusal sorgulamadır: dondurulmuş öz-denetimli özelliklerin üzerine yalnızca bir doğrusal sınıflandırıcı eğitmek. Özellikle DINO özellikleri bu ayarda rekabetçidir ve temsillerin zaten anlamsal olarak anlamlı olduğunu gösterir. Ancak, en iyi aşağı akış performansı için tam ince ayar önerilir.

Öz-denetimli ViT küçük görüntüler için uygun mu?

Yama tabanlı belirteçleme, anlamlı belirteçler oluşturmak için yeterli görüntü çözünürlüğü gerektirir. Standart ViT-B 16x16 yamalar kullanır, bu nedenle bir giriş görüntüsü en az 224x224 piksel olmalıdır. Çok küçük görüntüler (örneğin, 32x32) için, bir ResNet omurgası ile SimCLR veya MoCo gibi konvolüsyonel öz-denetimli yöntemler daha uygun bir uyum olacaktır.

Öz-denetimli ViT ile denetimli bir ViT'den transfer öğrenimi arasında nasıl seçim yapmalıyım?

Hedef alanınız ImageNet'e (doğal fotoğraflar) yakınsa, denetimli ViT transferi genellikle daha basittir ve eşit derecede güçlüdür. Alanınıza özgü etiketlenmemiş veriler üzerinde öz-denetimli ön eğitim, alanınız ImageNet'ten uzak olduğunda — tıbbi görüntüler, uzaktan algılama veya bilimsel mikroskopi — ve etiketler olmadan bile büyük etiketlenmemiş kümeler toplayabildiğinizde avantajlı hale gelir.

Kaynaklar

Caron, M., Touvron, H., Misra, I., Jegou, H., Mairal, J., Bojanowski, P., & Joulin, A. (2021). Emerging Properties in Self-Supervised Vision Transformers. Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), 9650–9660. link ↗
He, K., Chen, X., Xie, S., Li, Y., Dollar, P., & Girshick, R. (2022). Masked Autoencoders Are Scalable Vision Learners. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 16000–16009. link ↗

Bu sayfayı kaynak gösterin

ScholarGate. (2026, June 3). Self-supervised Vision Transformer (SSL-ViT). ScholarGate. https://scholargate.app/tr/deep-learning/self-supervised-vision-transformer

Hangi yöntem?

Bu yöntemi en yakın akrabalarının yanına koyup yan yana okuyun — kütüphane kitapları masaya serer; seçim sizindir.

İnce Ayarlı Vision TransformerDerin öğrenme↔ karşılaştır
Öz-Denetimli Evrişimsel Sinir AğıDerin öğrenme↔ karşılaştır
Vision TransformerDerin öğrenme↔ karşılaştır

Yan yana karşılaştır →

Bu yönteme atıf yapanlar

Açıklanabilir Vision Transformer Öz-Denetimli Evrişimsel Sinir Ağı Öz-denetimli Anlamsal Bölütleme Yarı denetimli Görsel Dönüştürücü

Benzer yöntemler

Yarı denetimli Görsel Dönüştürücü Kendi Kendine Denetimli Görüntü Sınıflandırma Öz-denetimli Nesne Tespiti Öz-denetimli Anlamsal Bölütleme Öz-denetimli Öğrenme Masked Autoencoders (MAE)Öz-denetimli Aktarmalı Öğrenme

İlgili referans kavramlar

Öz-Denetimli ve Temsil Öğrenimi Denetimsiz Öğrenme Nesne Tanıma ve Algılama Görüntü Segmentasyonu Bilgisayar Görüsü Denetimli Öğrenme

Bu sayfada bir hata mı var? Bildir / düzeltme öner →

Öz-denetimli Görsel Transformer

Self-supervised Vision Transformer (SSL-ViT) · Ayrıca şöyle bilinir: SSL-ViT, self-supervised ViT, unsupervised ViT pre-training, vision transformer self-supervised pre-training

Araçlar & kaynaklar

Slaytları indir

Öğren & keşfet

Tam yöntemi oku

Yalnızca üyeler

Bu bölümü okumak için ücretsiz hesapla giriş yapın.

Giriş yap

Ne zaman kullanılır

Güçlü yönler & sınırlılıklar

Güçlü yönler

Ön eğitim sırasında herhangi bir etiketli veri gerektirmeden güçlü görsel temsiller öğrenir.
Görüntü sınıflandırma, segmentasyon ve algılama kıyaslamalarında son teknoloji performansı elde eder.
Yeni alanlara çok az etiketli örnekle (az örnekli ayar) güçlü bir şekilde aktarılır.
DINO tabanlı özellikler, dikkat haritaları aracılığıyla anlamsal segmentasyon gibi şaşırtıcı ortaya çıkan özellikler gösterir.
Ölçeklenebilir: daha büyük etiketlenmemiş veri kümeleri ve daha büyük model boyutları tutarlı bir şekilde temsil kalitesini artırır.
Tıp ve uzaktan algılama gibi etiket kıtlığı olan alanlarda ek açıklama maliyetini önemli ölçüde azaltır.

Sınırlılıklar

Ön eğitim hesaplama açısından yoğundur, önemli GPU kaynakları ve büyük görüntü veri kümeleri gerektirir.
Yama tabanlı belirteçleme, görüntü çözünürlüğüne duyarlıdır; çok düşük çözünürlüklü girdiler temsil kalitesini düşürür.
MAE tabanlı yaklaşımlar, tüm görüntü alanlarına uymayabilecek yüksek maskeleme oranlarına (örneğin, %75) dayanır.
Denetimli temellere göre kazançlar, etiketli veri bol olduğunda azalır.
Hiperparametre hassasiyeti (maskeleme oranı, artırma gücü, öğretmen momentumu) dikkatli ayar gerektirir.

SSS

DINO ve MAE arasındaki fark nedir?

Öz-denetimli ViT ön eğitimi için ne kadar etiketlenmemiş veriye ihtiyacım var?

Öz-denetimli ViT özelliklerini herhangi bir ince ayar yapmadan kullanabilir miyim?

Öz-denetimli ViT küçük görüntüler için uygun mu?

Öz-denetimli ViT ile denetimli bir ViT'den transfer öğrenimi arasında nasıl seçim yapmalıyım?

Kaynaklar

Caron, M., Touvron, H., Misra, I., Jegou, H., Mairal, J., Bojanowski, P., & Joulin, A. (2021). Emerging Properties in Self-Supervised Vision Transformers. Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), 9650–9660. link ↗
He, K., Chen, X., Xie, S., Li, Y., Dollar, P., & Girshick, R. (2022). Masked Autoencoders Are Scalable Vision Learners. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 16000–16009. link ↗

Bu sayfayı kaynak gösterin

ScholarGate. (2026, June 3). Self-supervised Vision Transformer (SSL-ViT). ScholarGate. https://scholargate.app/tr/deep-learning/self-supervised-vision-transformer