Machine learningMachine learning

Yarı denetimli Gradyan Artırma (Semi-supervised Gradient Boosting)

Semi-supervised Gradient Boosting (Self-training / Pseudo-labeling with Gradient Boosted Trees) · Ayrıca şöyle bilinir: pseudo-label gradient boosting, self-training GBM, semi-supervised GBT, label-propagation boosting

Yarı denetimli gradyan artırma, büyük etiketlenmemiş veri havuzlarından, az sayıda etiketlenmiş veriyle birlikte yararlanmak üzere, kendi kendine öğrenme (self-training) veya sözde etiketleme (pseudo-labeling) ile gradyan artırmalı ağaçları birleştirir. Etiketlenmiş veriler üzerinde yapılan ilk bir Gradyan Artırma Makinesi (GBM) uyumu, etiketlenmemiş örneklere güvenilir tahminler atar; bu sözde etiketlenmiş noktalar eğitime geri katılır ve model yakınsama sağlanana kadar yeniden artırılır. Bu, etiketlerin kıt veya pahalı olduğu durumlarda uygulayıcıların ucuz etiketlenmemiş verilerden yararlanmasını sağlar.

Araçlar & kaynaklar

Slaytları indir

Öğren & keşfet

Tam yöntemi oku

Yalnızca üyeler

Bu bölümü okumak için ücretsiz hesapla giriş yapın.

Giriş yap

Yöntem haritası

İlişkili yöntemlerin komşuluğu — keşfetmek için bir düğüm seçin.

Yarı denetimli Gradyan Artırma (Semi-supervised Gradient Boosting)

Yükseltme Gradyan Artırma Öz-denetimli Öğrenme Yarı denetimli Öğrenme Yarı Denetimli Rastgele…Online Gradient Boosting Yarı denetimli CatBoost Yarı denetimli LightGBM

Ne zaman kullanılır

Etiketlenmiş verilerin kıt olduğu (örneğin, birkaç yüzden az örnek) ancak aynı dağılımdan büyük miktarda etiketlenmemiş verinin mevcut olduğu ve ek etiket toplamanın maliyetli olduğu durumlarda yarı denetimli gradyan artırmayı kullanın. Gradyan artırmalı bir modelin yalnızca etiketlenmiş küme üzerinde zaten iyi performans gösterdiği tablo sınıflandırma ve regresyon görevleri için uygundur. Şu durumlarda kaçının: etiketlenmiş ve etiketlenmemiş veriler farklı dağılımlardan geliyorsa (dağılım kayması hatayı büyütecektir); temel modelin etiketlenmiş verilerdeki doğruluğu çok düşükse (kötü sözde etiketler yeniden eğitime zarar verir); veya etiketlenmiş küme zaten standart bir GBM'yi doyuracak kadar büyükse, bu durumda yarı denetimli ek yük ihmal edilebilir fayda sağlar.

Güçlü yönler & sınırlılıklar

Güçlü yönler

Etiketler pahalı veya kıt olduğunda performansı iyileştirmek için ucuz etiketlenmemiş verilerden yararlanır.
Mimari değişiklikler olmaksızın herhangi bir gradyan artırma uygulamasıyla (XGBoost, LightGBM, CatBoost, scikit-learn) uyumludur.
Güven eşikleme, sözde etiket gürültüsünü sınırlayan yerleşik bir kalite kapısı sağlar.
Gradyan artırmalı ağaçların tam tahmin gücünü ve özellik etkileşimi modellemesini korur.
Yinelemeli iyileştirme, model geliştikçe etiketlenmemiş verilerin aşamalı olarak dahil edilmesini sağlar.

Sınırlılıklar

Sözde etiket kalitesi temel modele bağlıdır; zayıf bir başlangıç modeli sonraki yinelemeleri bozabilir.
Etiketlenmiş ve etiketlenmemiş verilerin aynı dağılımdan çekildiği varsayılır — bu varsayımın ihlali hata büyümesine neden olur.
Güven eşiği (tau) ayarlaması, prensipli bir varsayılanı olmayan bir hiperparametre ekler.
Hesaplama maliyeti, özellikle büyük etiketlenmemiş havuzlarda, her kendi kendine öğrenme yinelemesiyle artar.
Doğrulama yalnızca etiketlenmiş veriler üzerinde yapılmalıdır; artırılmış küme üzerindeki standart çapraz doğrulama tahminleri şişirir.

SSS

Güven eşiğini nasıl seçerim?

Muhafazakar başlayın — ikili sınıflandırma için, 1. turda 0.9'un üzerindeki değerler yaygındır. Her turdan sonra etiketlenmiş küme doğrulama doğruluğunu izleyin ve yalnızca performans korunursa veya iyileşirse güven eşiğini kademeli olarak gevşetin. Tek bir prensipli değer yoktur; bunu ayarlanabilir bir hiperparametre olarak ele alın.

Sözde etiketlenmiş örnekler etiketlenmiş olanlarla eşit ağırlıklandırılmalı mı?

Genellikle hayır. Sözde etiketlenmiş örneklere 1.0'dan az bir ağırlık (örneğin, 0.5) atamak, belirsiz tahminlerin kayıp fonksiyonu üzerindeki etkisini azaltır. Bazı uygulamalar, ağırlığı modelin tahmin edilen güvenine bağlar ve daha yüksek güvenli sözde etiketlere daha yüksek ağırlık verir.

Yarı denetimli gradyan artırma performansa ne zaman zarar verir?

İlk modelin güvenilir sözde etiketler üretemeyecek kadar zayıf olduğu, etiketlenmiş ve etiketlenmemiş verilerin dağılımının farklı olduğu veya etiketlenmemiş kümenin etiketlenmiş kümeye göre küçük olduğu durumlarda zarar verir. Bu senaryolarda, yalnızca etiketlenmiş veriler üzerindeki standart bir denetimli GBM genellikle daha güvenlidir.

Bu, CatBoost'un yerleşik yarı denetimli modundan farklı mı?

CatBoost, tek bir eğitim çalıştırması içinde etiketlenmiş veriler üzerindeki denetimli bir kaybı ve etiketlenmemiş veriler üzerindeki denetimsiz veya sözde etiket kaybını ortaklaşa optimize ederek yarı denetimli eğitimi yerel olarak uygular, bu da yinelemeli harici sözde etiketlemeden daha kararlı olabilir. Manuel kendi kendine öğrenme döngüleri daha geneldir ve herhangi bir GBM kütüphanesiyle çalışır.

Kaç tur sözde etiketleme gereklidir?

Genellikle 3 ila 10 tur yeterlidir; etiketlenmiş küme doğrulama metriği iyileşmeyi durdurduğunda veya yeni kabul edilen sözde etiketlerin sayısı sıfıra yaklaştığında yakınsama tespit edilir. Daha fazla tur, sözde etiket hatalarını birleştirme riskini taşır.

Kaynaklar

Yarowsky, D. (1995). Unsupervised word sense disambiguation rivaling supervised methods. Proceedings of ACL 1995, 189–196. (Foundational self-training framework underlying pseudo-label approaches.) link ↗
Chapelle, O., Scholkopf, B., & Zien, A. (Eds.) (2006). Semi-Supervised Learning. MIT Press. ISBN: 978-0-262-03358-9

Bu sayfayı kaynak gösterin

ScholarGate. (2026, June 3). Semi-supervised Gradient Boosting (Self-training / Pseudo-labeling with Gradient Boosted Trees). ScholarGate. https://scholargate.app/tr/machine-learning/semi-supervised-gradient-boosting

Hangi yöntem?

Bu yöntemi en yakın akrabalarının yanına koyup yan yana okuyun — kütüphane kitapları masaya serer; seçim sizindir.

YükseltmeMakine öğrenmesi↔ karşılaştır
Gradyan ArtırmaMakine öğrenmesi↔ karşılaştır
Öz-denetimli ÖğrenmeMakine öğrenmesi↔ karşılaştır
Yarı denetimli ÖğrenmeMakine öğrenmesi↔ karşılaştır
Yarı Denetimli Rastgele OrmanMakine öğrenmesi↔ karşılaştır

Yan yana karşılaştır →

Bu yönteme atıf yapanlar

Online Gradient Boosting Yarı denetimli CatBoost Yarı denetimli LightGBM

Benzer yöntemler

Yarı denetimli XGBoost Yarı denetimli LightGBM Öz-denetimli Gradyan Artırma Yarı denetimli CatBoost Yarı denetimli Boosting Öz-denetimli Boosting Yarı denetimli Torbalama (Semi-supervised Bagging)Yarı Denetimli Karar Ağacı

İlgili referans kavramlar

Topluluk Yöntemleri Denetimli Öğrenme Denetimsiz Öğrenme Öz-Denetimli ve Temsil Öğrenimi Sıralama Öğrenimi Çapraz Doğrulama ve Yeniden Örnekleme

Bu sayfada bir hata mı var? Bildir / düzeltme öner →

Yarı denetimli Gradyan Artırma (Semi-supervised Gradient Boosting)

Araçlar & kaynaklar

Slaytları indir

Öğren & keşfet

Tam yöntemi oku

Yalnızca üyeler

Bu bölümü okumak için ücretsiz hesapla giriş yapın.

Giriş yap

Ne zaman kullanılır

Güçlü yönler & sınırlılıklar

Güçlü yönler

Etiketler pahalı veya kıt olduğunda performansı iyileştirmek için ucuz etiketlenmemiş verilerden yararlanır.
Mimari değişiklikler olmaksızın herhangi bir gradyan artırma uygulamasıyla (XGBoost, LightGBM, CatBoost, scikit-learn) uyumludur.
Güven eşikleme, sözde etiket gürültüsünü sınırlayan yerleşik bir kalite kapısı sağlar.
Gradyan artırmalı ağaçların tam tahmin gücünü ve özellik etkileşimi modellemesini korur.
Yinelemeli iyileştirme, model geliştikçe etiketlenmemiş verilerin aşamalı olarak dahil edilmesini sağlar.

Sınırlılıklar

Sözde etiket kalitesi temel modele bağlıdır; zayıf bir başlangıç modeli sonraki yinelemeleri bozabilir.
Etiketlenmiş ve etiketlenmemiş verilerin aynı dağılımdan çekildiği varsayılır — bu varsayımın ihlali hata büyümesine neden olur.
Güven eşiği (tau) ayarlaması, prensipli bir varsayılanı olmayan bir hiperparametre ekler.
Hesaplama maliyeti, özellikle büyük etiketlenmemiş havuzlarda, her kendi kendine öğrenme yinelemesiyle artar.
Doğrulama yalnızca etiketlenmiş veriler üzerinde yapılmalıdır; artırılmış küme üzerindeki standart çapraz doğrulama tahminleri şişirir.

SSS

Güven eşiğini nasıl seçerim?

Sözde etiketlenmiş örnekler etiketlenmiş olanlarla eşit ağırlıklandırılmalı mı?

Yarı denetimli gradyan artırma performansa ne zaman zarar verir?

Bu, CatBoost'un yerleşik yarı denetimli modundan farklı mı?

Kaç tur sözde etiketleme gereklidir?

Kaynaklar

Yarowsky, D. (1995). Unsupervised word sense disambiguation rivaling supervised methods. Proceedings of ACL 1995, 189–196. (Foundational self-training framework underlying pseudo-label approaches.) link ↗
Chapelle, O., Scholkopf, B., & Zien, A. (Eds.) (2006). Semi-Supervised Learning. MIT Press. ISBN: 978-0-262-03358-9