Machine learning

T5 (Text-to-Text Transfer Transformer)

T5: Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer · Ayrıca şöyle bilinir: T5, Text-to-Text Transfer Transformer, T5-Small, T5-Base, T5-Large, T5-3B, T5-11B, seq2seq fine-tuning baseline

T5, Raffel ve arkadaşları tarafından 2020'de Google Brain'de tanıtılan ve Journal of Machine Learning Research'te (Cilt 21, Sayı 140) yayımlanan birleşik bir dizi-dizi derin öğrenme çerçevesidir. Her doğal dil işleme (NLP) görevini — sınıflandırma, çeviri, özetleme, soru yanıtlama ve daha fazlasını — metinden-metne bir problem olarak yeniden çerçeveler: hem girdi hem de çıktı her zaman karakter dizileridir, bu da tek bir kodlayıcı-kod çözücü Transformer'ın bir kez ön eğitime tabi tutulup tutarlı bir arayüzle görevler arasında ince ayarlanmasına olanak tanır. T5, aralık-bozulması ön eğitimini ve C4 veri kümesini tanıttı ve en büyük varyantı (11 milyar parametre) yayımlandığı sırada geniş bir NLP kıyaslamaları yelpazesinde en gelişmiş sonuçları elde etti.

Araçlar & kaynaklar

Slaytları indir

Öğren & keşfet

Tam yöntemi oku

Yalnızca üyeler

Bu bölümü okumak için ücretsiz hesapla giriş yapın.

Giriş yap

Yöntem haritası

İlişkili yöntemlerin komşuluğu — keşfetmek için bir düğüm seçin.

T5 (Text-to-Text Transfer Transformer)

Dikkat Mekanizması Transfer Learning

Ne zaman kullanılır

T5, (1) görevin bir metin dizesinden bir metin dizesi üretme olarak ifade edilebildiği — sınıflandırma (kelime olarak etiketler), çıkarma, çeviri, özetleme, soru yanıtlama ve metin üretimi dahil; (2) ince ayar için yeterli etiketlenmiş veri veya istem tabanlı az örnekli (few-shot) örneklerin mevcut olduğu; ve (3) hesaplama kaynaklarının ön eğitimli bir kontrol noktasını (T5-Small yaklaşık 60 milyon parametreye sahiptir; T5-11B çoklu GPU altyapısı gerektirir) yüklemeye izin verdiği durumlarda uygundur. Özellikle BERT gibi yalnızca kodlayıcı modellerin, sabit boyutlu bir etiket yerine değişken uzunlukta metin çıktısı ürettikleri için uygun olmadığı dizi-dizi NLP görevleri için güçlü bir varsayılan temel oluşturur. T5, metin girdisi ve çıktısı varsayar; metin kodlamaları olmadan yalnızca sayısal regresyon veya yapılandırılmış tablo tahmini için tasarlanmamıştır.

Güçlü yönler & sınırlılıklar

Güçlü yönler

Tek bir mimari ve tek bir eğitim tarifi ile neredeyse her NLP görevini kapsayan birleşik metinden-metne arayüz.
Ön eğitim hedefleri ve veri kümesi ölçeklerinin sistematik karşılaştırması, iyi belgelenmiş, tekrarlanabilir bir tasarım sağlar.
Belirteç düzeyinde maskelemeye göre daha zengin dilbilimsel yapıyı yakalayan ancak hesaplama açısından verimli kalan aralık bozulması ön eğitimi.
Göreceli konum yanlılıkları, ön eğitim sırasında görülmeyen girdi uzunluklarına genelleştirmeyi iyileştirir.
Beş ölçekte (Küçük, Temel, Büyük, 3B, 11B) kontrol noktalarıyla Apache 2.0 altında yayımlandı, esnek dağıtım ödünleşimlerine olanak tanır.
Geniş çapta incelendi ve genişletildi (FLAN-T5, mT5, CodeT5), uzun vadeli topluluk desteği ve belgelenmiş hata modları sağlar.

Sınırlılıklar

Büyük bellek ve hesaplama ayak izi: T5-11B, çıkarım için bile onlarca gigabayt GPU belleği gerektirir.
Kodlayıcı-kod çözücü mimarisi, yalnızca üretken görevler için çıkarımda kod çözücüden daha yavaştır çünkü kod çözme başlamadan önce kodlayıcının tam girdiyi işlemesi gerekir.
Metinden-metne çerçeveleme, doğal olarak dize olarak ifade edilmeyen görevler (örneğin, karmaşık kısıtlamalara sahip yapılandırılmış tahmin) için garip olabilir.
İngilizce C4 üzerinde ön eğitim, temel modeli çoğunlukla İngilizce yapar; çok dilli uzantı (mT5) ayrı ön eğitim gerektirir.
Küçük veri kümelerinde ince ayar, ön eğitimli bilginin unutulmasına yol açabilir; dikkatli öğrenme oranı ve dönem seçimi gereklidir.

SSS

T5, BERT'ten nasıl farklıdır?

BERT, maskelenmiş belirteç tahmini ile ön eğitime tabi tutulmuş ve sabit boyutlu çıktı gerektiren görevler (sınıflandırma, belirteç etiketleme) için tasarlanmış yalnızca kodlayıcı bir modeldir. T5, keyfi uzunlukta metin çıktısı üreten bir kodlayıcı-kod çözücü modeldir, bu da onu özetleme, çeviri ve tek bir etiket yerine bir dize üreten diğer tüm görevler için uygun hale getirir. Her ikisi de Transformer dikkat mekanizmasını kullanır, ancak T5'in birleşik metinden-metne çerçevesi, ince ayar arayüzünün tüm görevlerde aynı olduğu anlamına gelir.

Aralık bozulması nedir ve neden belirteç maskelemeye göre daha iyidir?

Aralık bozulması, ardışık belirteç gruplarını (aralıkları) tek bir sentinel belirteciyle değiştirir ve modelden bu aralıkları çıktıda yeniden oluşturmasını ister. BERT'teki belirteç düzeyinde maskelemeye kıyasla, aralık bozulması örnek başına tahmin hedeflerinin sayısını azaltır, bu da ön eğitimi hızlandırır, ancak yine de çok belirteçli bir aralığı doldurmak için daha uzun mesafeli bağlamı anlamayı gerektirir. Raffel ve arkadaşları ampirik olarak ortalama 3 aralık uzunluğu ve %15 bozulmanın karşılaştırdıkları hedefler arasında en iyi sonuçları verdiğini bulmuşlardır.

Hangi T5 varyantıyla başlamalıyım?

T5-Base (yaklaşık 250 milyon parametre), çoğu araştırma ortamı için pratik bir başlangıç noktasıdır: tek bir modern GPU'ya sığar, hızlı bir şekilde ince ayarlanır ve standart kıyaslamalarda iyi performans gösterir. T5-Small (yaklaşık 60 milyon), bellek veya gecikme süresinin katı bir kısıtlama olduğu durumlarda uygundur. Daha büyük varyantlar (Large, 3B, 11B) genellikle sonuçları iyileştirir ancak çoklu GPU kurulumları ve daha uzun ince ayar çalışmaları gerektirir. FLAN-T5 (talimat ayarlı) sürümleri, etiketlenmiş ince ayar verilerinin az olduğu durumlarda genellikle daha iyi bir hazır seçeneklerdir.

T5, NLP dışındaki görevler, örneğin tablo verileri için kullanılabilir mi?

T5, metin girdisi ve çıktısı için tasarlanmıştır. Tablo verileri metne serileştirilebilir (örneğin, sütun adları virgülle ayrılmış dizeler olarak değerlerle eşleştirilir) ve bu yaklaşıma ilişkin araştırmalar mevcuttur, ancak T5 yalnızca sayısal veya yapılandırılmış veriler için optimize edilmemiştir. Tablo tahmini görevleri için ağaç tabanlı topluluklar veya özel olarak tasarlanmış tablo derin öğrenme modelleri genellikle daha uygundur.

Kaynaklar

Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., Zhou, Y., Li, W., & Liu, P. J. (2020). Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer. Journal of Machine Learning Research, 21(140), 1–67. link ↗
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., & Polosukhin, I. (2017). Attention is All You Need. Advances in Neural Information Processing Systems, 30. link ↗
Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. Proceedings of NAACL-HLT 2019, 4171–4186. link ↗

Bu sayfayı kaynak gösterin

ScholarGate. (2026, June 3). T5: Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer. ScholarGate. https://scholargate.app/tr/deep-learning/t5

Hangi yöntem?

Bu yöntemi en yakın akrabalarının yanına koyup yan yana okuyun — kütüphane kitapları masaya serer; seçim sizindir.

Dikkat MekanizmasıDerin öğrenme↔ karşılaştır
Transfer LearningMakine öğrenmesi↔ karşılaştır

Yan yana karşılaştır →

Benzer yöntemler

İnce Ayarlanmış Metin Özetleme Metin Özetleme ile Transfer Öğrenmesi İnce Ayarlanmış Transformer Çok Dilli Metin Özetleme Diziden Diziye Model Öz-denetimli Transformer Transformer (Doğal Dil İşleme)Çok dilli Transformer

İlgili referans kavramlar

Diziden Diziye Modeller ve Transformatörler Makine Çevirisi Makine Çevirisi Doğal Dil İşleme Sözcük Türü Etiketleme ve Dizi Etiketleme Otomatik Konuşma Tanıma

Bu sayfada bir hata mı var? Bildir / düzeltme öner →

Machine learning

T5 (Text-to-Text Transfer Transformer)

Araçlar & kaynaklar

Slaytları indir

Öğren & keşfet

Tam yöntemi oku

Yalnızca üyeler

Bu bölümü okumak için ücretsiz hesapla giriş yapın.

Giriş yap

Yöntem haritası

İlişkili yöntemlerin komşuluğu — keşfetmek için bir düğüm seçin.

T5 (Text-to-Text Transfer Transformer)

Dikkat Mekanizması Transfer Learning

Ne zaman kullanılır

Güçlü yönler & sınırlılıklar

Güçlü yönler

Tek bir mimari ve tek bir eğitim tarifi ile neredeyse her NLP görevini kapsayan birleşik metinden-metne arayüz.
Ön eğitim hedefleri ve veri kümesi ölçeklerinin sistematik karşılaştırması, iyi belgelenmiş, tekrarlanabilir bir tasarım sağlar.
Belirteç düzeyinde maskelemeye göre daha zengin dilbilimsel yapıyı yakalayan ancak hesaplama açısından verimli kalan aralık bozulması ön eğitimi.
Göreceli konum yanlılıkları, ön eğitim sırasında görülmeyen girdi uzunluklarına genelleştirmeyi iyileştirir.
Beş ölçekte (Küçük, Temel, Büyük, 3B, 11B) kontrol noktalarıyla Apache 2.0 altında yayımlandı, esnek dağıtım ödünleşimlerine olanak tanır.
Geniş çapta incelendi ve genişletildi (FLAN-T5, mT5, CodeT5), uzun vadeli topluluk desteği ve belgelenmiş hata modları sağlar.

Sınırlılıklar

Büyük bellek ve hesaplama ayak izi: T5-11B, çıkarım için bile onlarca gigabayt GPU belleği gerektirir.
Kodlayıcı-kod çözücü mimarisi, yalnızca üretken görevler için çıkarımda kod çözücüden daha yavaştır çünkü kod çözme başlamadan önce kodlayıcının tam girdiyi işlemesi gerekir.
Metinden-metne çerçeveleme, doğal olarak dize olarak ifade edilmeyen görevler (örneğin, karmaşık kısıtlamalara sahip yapılandırılmış tahmin) için garip olabilir.
İngilizce C4 üzerinde ön eğitim, temel modeli çoğunlukla İngilizce yapar; çok dilli uzantı (mT5) ayrı ön eğitim gerektirir.
Küçük veri kümelerinde ince ayar, ön eğitimli bilginin unutulmasına yol açabilir; dikkatli öğrenme oranı ve dönem seçimi gereklidir.

SSS

T5, BERT'ten nasıl farklıdır?

Aralık bozulması nedir ve neden belirteç maskelemeye göre daha iyidir?

Hangi T5 varyantıyla başlamalıyım?

T5, NLP dışındaki görevler, örneğin tablo verileri için kullanılabilir mi?

Kaynaklar

Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., Zhou, Y., Li, W., & Liu, P. J. (2020). Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer. Journal of Machine Learning Research, 21(140), 1–67. link ↗
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., & Polosukhin, I. (2017). Attention is All You Need. Advances in Neural Information Processing Systems, 30. link ↗
Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. Proceedings of NAACL-HLT 2019, 4171–4186. link ↗

Bu sayfayı kaynak gösterin

ScholarGate. (2026, June 3). T5: Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer. ScholarGate. https://scholargate.app/tr/deep-learning/t5

Hangi yöntem?

Bu yöntemi en yakın akrabalarının yanına koyup yan yana okuyun — kütüphane kitapları masaya serer; seçim sizindir.

Dikkat MekanizmasıDerin öğrenme↔ karşılaştır
Transfer LearningMakine öğrenmesi↔ karşılaştır

Yan yana karşılaştır →

Benzer yöntemler

İlgili referans kavramlar

Diziden Diziye Modeller ve Transformatörler Makine Çevirisi Makine Çevirisi Doğal Dil İşleme Sözcük Türü Etiketleme ve Dizi Etiketleme Otomatik Konuşma Tanıma

Bu sayfada bir hata mı var? Bildir / düzeltme öner →