Machine learning

Vision Transformer

Vision Transformer (ViT) · Ayrıca şöyle bilinir: Görsel Transformer (ViT), görsel transformer, ViT, patch transformer for images

Vision Transformer (ViT), Dosovitskiy ve meslektaşları tarafından 2021'de tanıtılmış olup, bir görüntüyü sabit boyutlu parçalara ayırır, bu parçaları bir dizi olarak ele alır ve görüntü sınıflandırması için Transformer öz-dikkat mekanizmasını uygular. Yeterli eğitim verisiyle, evrişimli sinir ağlarını (CNN'ler) geride bırakır.

Araçlar & kaynaklar

Slaytları indir

Öğren & keşfet

Tam yöntemi oku

Yalnızca üyeler

Bu bölümü okumak için ücretsiz hesapla giriş yapın.

Giriş yap

Yöntem haritası

İlişkili yöntemlerin komşuluğu — keşfetmek için bir düğüm seçin.

Vision Transformer

Difüzyon Modeli Üretken Çekişmeli Ağ Rastgele Orman Destek Vektör Makinesi (…Varyasyonel Otomatik Kod…BERT İnce Ayarı CLIP Alan Uyumlu Transformer Alan Adaptif Görsel Dönü…Açıklanabilir Vision Tra…

+25 tane daha

Ne zaman kullanılır

ViT'yi, yaklaşık 1000 veya daha fazla görüntü ve ideal olarak çok daha fazlası olmak üzere büyük bir veri kümeniz olduğunda ve bir GPU'ya erişiminiz olduğunda görüntü sınıflandırması veya sürekli (piksel) görüntü verileri üzerinde tahmin için kullanın. Büyük bir ön eğitim külliyatı veya önceden eğitilmiş bir modelden transfer öğrenme ile en iyi şekilde çalışır. Küçük görüntü veri kümelerinde (birkaç yüz görüntünün altında) ViT, parça tabanlı dikkatini güvenilir bir şekilde öğrenemez ve CNN veya Rastgele Orman veya SVM gibi klasik bir makine öğrenmesi yöntemi daha güvenli bir seçimdir.

Güçlü yönler & sınırlılıklar

Güçlü yönler

Öz-dikkat yoluyla küresel ilişkileri modelleyerek büyük görüntü veri kümelerinde CNN'leri geride bırakır.
Bir görüntüyü parçalar dizisi olarak ele alır, kanıtlanmış Transformer mimarisini vizyona uygular.
Yalnızca yerel komşulukların değil, tüm görüntü boyunca uzun menzilli bağımlılıkları yakalar.
Büyük ölçekli ön eğitim ve önceden eğitilmiş kontrol noktalarına transfer öğrenmeden güçlü bir şekilde yararlanır.
Normal dağılımlı verileri varsaymaz.

Sınırlılıklar

Büyük bir eğitim seti gerektirir (yaklaşık 1000 görüntü veya daha fazla); küçük verilerde CNN'lerden daha düşük performans gösterir.
Bir GPU gereklidir ve sıfırdan eğitim veri ve hesaplama açısından yoğundur.
Çok küçük veri kümelerinde (birkaç yüz görüntünün altında) parça tabanlı dikkat güvenilir bir şekilde öğrenilemez.
Güçlü sonuçlar genellikle sıfırdan eğitime kıyasla büyük bir ön eğitim külliyatına veya transfer öğrenmeye bağlıdır.

SSS

ViT bir CNN'den nasıl farklıdır?

Bir CNN, bir görüntüyü yerel evrişimli filtreler aracılığıyla işlerken, ViT görüntüyü sabit boyutlu parçalara böler, bunları bir dizi olarak ele alır ve öz-dikkat kullanarak herhangi bir parçanın diğer herhangi bir parçayla ilişki kurmasını sağlar. Bu, ViT'nin küresel ilişkileri modellemesine ve büyük veri kümelerinde CNN'leri geride bırakmasına olanak tanır.

ViT ne kadar veriye ihtiyaç duyar?

ViT veri açısından yoğundur: yaklaşık 1000 veya daha fazla görüntü ve büyük bir ön eğitim külliyatı ile en iyi şekilde çalışır. Birkaç yüz görüntünün altında, parça tabanlı dikkati güvenilir bir şekilde öğrenemez ve bir CNN veya klasik yöntem tercih edilir.

Bir GPU'ya ihtiyacım var mı?

Evet. ViT bir GPU gerektirir ve eğitilmesi veri ve hesaplama açısından yoğundur. Önceden eğitilmiş bir kontrol noktasını transfer öğrenme ile kullanmak yükü önemli ölçüde azaltır.

Görüntü veri kümem küçükse ne yapmalıyım?

Küçük veri kümelerinde ViT düşük performans gösterir. Yaklaşık 500 görüntünün altında Rastgele Orman gibi bir yöntemi, birkaç yüz görüntünün altında ise bir CNN veya SVM'yi veya önceden eğitilmiş bir modelden transfer öğrenmeyi tercih edin.

Kaynaklar

Dosovitskiy, A. et al. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. ICLR. link ↗
Touvron, H. et al. (2021). Training Data-Efficient Image Transformers. ICML. link ↗

Bu sayfayı kaynak gösterin

ScholarGate. (2026, June 1). Vision Transformer (ViT). ScholarGate. https://scholargate.app/tr/deep-learning/vision-transformer

Hangi yöntem?

Bu yöntemi en yakın akrabalarının yanına koyup yan yana okuyun — kütüphane kitapları masaya serer; seçim sizindir.

Difüzyon ModeliDerin öğrenme↔ karşılaştır
Üretken Çekişmeli AğDerin öğrenme↔ karşılaştır
Rastgele OrmanMakine öğrenmesi↔ karşılaştır
Destek Vektör Makinesi (Sınıflandırma)Makine öğrenmesi↔ karşılaştır
Varyasyonel Otomatik KodlayıcıDerin öğrenme↔ karşılaştır

Yan yana karşılaştır →

Bu yönteme atıf yapanlar

Benzer yöntemler

İnce Ayarlı Vision Transformer Yarı denetimli Görsel Dönüştürücü Çok Dilli Vision Transformer CNN Görüntü Sınıflandırma Zayıf Denetimli Görsel Dönüştürücü Öz-denetimli Görsel Transformer Açıklanabilir Vision Transformer

İlgili referans kavramlar

Nesne Tanıma ve Algılama Evrişimsel ve Dizi Modelleri Öz-Denetimli ve Temsil Öğrenimi Bilgisayar Görüsü Derin Öğrenme Görüntü Segmentasyonu

Bu sayfada bir hata mı var? Bildir / düzeltme öner →

Machine learning

Vision Transformer

Vision Transformer (ViT) · Ayrıca şöyle bilinir: Görsel Transformer (ViT), görsel transformer, ViT, patch transformer for images

Araçlar & kaynaklar

Slaytları indir

Öğren & keşfet

Tam yöntemi oku

Yalnızca üyeler

Bu bölümü okumak için ücretsiz hesapla giriş yapın.

Giriş yap

Yöntem haritası

İlişkili yöntemlerin komşuluğu — keşfetmek için bir düğüm seçin.

Vision Transformer

+25 tane daha

Ne zaman kullanılır

Güçlü yönler & sınırlılıklar

Güçlü yönler

Öz-dikkat yoluyla küresel ilişkileri modelleyerek büyük görüntü veri kümelerinde CNN'leri geride bırakır.
Bir görüntüyü parçalar dizisi olarak ele alır, kanıtlanmış Transformer mimarisini vizyona uygular.
Yalnızca yerel komşulukların değil, tüm görüntü boyunca uzun menzilli bağımlılıkları yakalar.
Büyük ölçekli ön eğitim ve önceden eğitilmiş kontrol noktalarına transfer öğrenmeden güçlü bir şekilde yararlanır.
Normal dağılımlı verileri varsaymaz.

Sınırlılıklar

Büyük bir eğitim seti gerektirir (yaklaşık 1000 görüntü veya daha fazla); küçük verilerde CNN'lerden daha düşük performans gösterir.
Bir GPU gereklidir ve sıfırdan eğitim veri ve hesaplama açısından yoğundur.
Çok küçük veri kümelerinde (birkaç yüz görüntünün altında) parça tabanlı dikkat güvenilir bir şekilde öğrenilemez.
Güçlü sonuçlar genellikle sıfırdan eğitime kıyasla büyük bir ön eğitim külliyatına veya transfer öğrenmeye bağlıdır.

SSS

ViT bir CNN'den nasıl farklıdır?

ViT ne kadar veriye ihtiyaç duyar?

Bir GPU'ya ihtiyacım var mı?

Evet. ViT bir GPU gerektirir ve eğitilmesi veri ve hesaplama açısından yoğundur. Önceden eğitilmiş bir kontrol noktasını transfer öğrenme ile kullanmak yükü önemli ölçüde azaltır.

Görüntü veri kümem küçükse ne yapmalıyım?

Kaynaklar

Dosovitskiy, A. et al. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. ICLR. link ↗
Touvron, H. et al. (2021). Training Data-Efficient Image Transformers. ICML. link ↗

Bu sayfayı kaynak gösterin

ScholarGate. (2026, June 1). Vision Transformer (ViT). ScholarGate. https://scholargate.app/tr/deep-learning/vision-transformer

Hangi yöntem?

Bu yöntemi en yakın akrabalarının yanına koyup yan yana okuyun — kütüphane kitapları masaya serer; seçim sizindir.

Difüzyon ModeliDerin öğrenme↔ karşılaştır
Üretken Çekişmeli AğDerin öğrenme↔ karşılaştır
Rastgele OrmanMakine öğrenmesi↔ karşılaştır
Destek Vektör Makinesi (Sınıflandırma)Makine öğrenmesi↔ karşılaştır
Varyasyonel Otomatik KodlayıcıDerin öğrenme↔ karşılaştır

Yan yana karşılaştır →

Bu yönteme atıf yapanlar

Benzer yöntemler

İlgili referans kavramlar

Nesne Tanıma ve Algılama Evrişimsel ve Dizi Modelleri Öz-Denetimli ve Temsil Öğrenimi Bilgisayar Görüsü Derin Öğrenme Görüntü Segmentasyonu

Bu sayfada bir hata mı var? Bildir / düzeltme öner →