Ridge ve lasso regresyonu arasındaki fark nedir?

Her ikisi de sıradan en küçük karelere katsayı büyüklüğü üzerinde bir ceza eklemektedir. Ridge, tüm katsayıları düzgün bir şekilde küçülten kareli (L2) bir ceza kullanırken, lasso bazı katsayıları tam olarak sıfıra götürebilen mutlak değerli (L1) bir ceza kullanmakta, böylece etkili bir şekilde özelliklerin bir alt kümesini seçmektedir.

Kareli hata neden bu kadar yaygın kullanılmaktadır?

Kareli hatayı minimize etmek, koşullu ortalamayı en iyi tahminleyici olarak vermekte ve gürültü Gauss olduğunda maksimum olabilirlik ile örtüşmektedir. Ayrıca, kapalı formda veya düzgün türevlenebilir çözümler sağlaması nedeniyle matematiksel olarak da elverişlidir.

Regresyon ve Fonksiyon Yaklaşımı

Regresyon, etiketli örneklerden sürekli değerli bir fonksiyon öğrenerek sayısal hedefleri tahmin etmekte ve bilinmeyen bir girdi-çıktı ilişkisini yaklaşık olarak belirlemektedir.

PaperMind ile konu bulYakındaMakale ve konu bul

Tools & resources

Slaytları indir

Learn & explore

VideoYakında

Tanım

Regresyon, girdileri sürekli bir çıktıya eşleyen bir fonksiyonu tahmin etme denetimli görevidir; bu genellikle eğitim örnekleri üzerindeki kareli hata gibi bir kaybı minimize ederek yapılmakta, katsayıları küçültmek ve aşırı uyumu sınırlamak için düzenlileştirme cezaları kullanılmaktadır.

Kapsam

Bu konu, gerçek değerli çıktıların denetimli öğrenmesini kapsamaktadır: doğrusal ve polinom regresyon, taban-fonksiyonu ve spline modelleri, ridge ve lasso düzenlileştirmesi, en küçük kareler hedefi ve Gauss gürültüsü olarak olasılıksal yorumu ile uyarlanan fonksiyonun ne kadar esnek olması gerektiğini belirleyen yanlılık-varyans değiş tokuşu.

Temel sorular

Gürültülü etiketli verilere sürekli bir fonksiyon nasıl uyarlanmaktadır?
Hangi kayıp fonksiyonları hangi gürültü varsayımlarına karşılık gelmektedir?
Ridge ve lasso cezaları, uyum ile model karmaşıklığı arasında nasıl bir denge kurmaktadır?
Bir regresyon fonksiyonu, yanlılık ve varyansı dengelemek için ne kadar esnek olmalıdır?

Temel kuramlar

En küçük kareler ve Gauss-Markov bakış açısı: Kareli hatayı minimize etmek, eklemeli gürültü altında koşullu ortalamayı optimal tahminleyici olarak vermekte ve doğrusal modeller için en iyi doğrusal yansız tahmini sağlamakta, regresyonu Gauss gürültüsü altında maksimum olabilirlik ile ilişkilendirmektedir.
Düzenlileştirilmiş regresyon: Ridge regresyonu, katsayıları L2 cezası ile sıfıra doğru küçültürken, lasso katsayıları tam olarak sıfıra ayarlayabilen bir L1 cezası kullanmakta, böylece değişken seçimi yapmakta ve yüksek boyutlarda tahmini iyileştirmektedir.
Taban-fonksiyonu açılımı: Doğrusal olmayan ilişkiler, polinomlar, spline'lar veya radyal fonksiyonlar gibi sabit veya adaptif taban fonksiyonları aracılığıyla girdilerin eşlenmesiyle yakalanmakta, böylece yeni özelliklerdeki doğrusal bir model, orijinallerin doğrusal olmayan bir fonksiyonuna uyum sağlamaktadır.

Klinik önem

Regresyon, tahmin, bilimsel eğri uydurma, risk modellemesi ve sayısal hedefi olan herhangi bir görev için merkezi bir öneme sahiptir; ridge ve lasso gibi regresyonu iyileştiren aynı düzenlileştirme fikirleri, makine öğreniminde model karmaşıklığını kontrol etmenin genel bir yolu olarak tekrar tekrar karşımıza çıkmaktadır.

Tarihçe

En küçük kareler regresyonu Gauss ve Legendre'e dayanmakta olup, makine öğrenimine temel bir tahmin aracı olarak girmiştir. Ridge regresyonu, kötü koşullandırılmış problemleri stabilize etmek için küçültmeyi (shrinkage) tanıtmış ve Tibshirani tarafından 1996'da tanıtılan lasso, seyrek regresyonu yüksek boyutlu tahmin ve değişken seçimi için standart bir teknik haline getirmiştir.

Öne çıkan isimler

Trevor Hastie
Robert Tibshirani
Arthur Hoerl

İlgili konular

Temel eserler

hastie2009
bishop2006
tibshirani1996

Sıkça sorulan sorular

Ridge ve lasso regresyonu arasındaki fark nedir?: Her ikisi de sıradan en küçük karelere katsayı büyüklüğü üzerinde bir ceza eklemektedir. Ridge, tüm katsayıları düzgün bir şekilde küçülten kareli (L2) bir ceza kullanırken, lasso bazı katsayıları tam olarak sıfıra götürebilen mutlak değerli (L1) bir ceza kullanmakta, böylece etkili bir şekilde özelliklerin bir alt kümesini seçmektedir.
Kareli hata neden bu kadar yaygın kullanılmaktadır?: Kareli hatayı minimize etmek, koşullu ortalamayı en iyi tahminleyici olarak vermekte ve gürültü Gauss olduğunda maksimum olabilirlik ile örtüşmektedir. Ayrıca, kapalı formda veya düzgün türevlenebilir çözümler sağlaması nedeniyle matematiksel olarak da elverişlidir.