Sınıflandırma Algoritmaları
Sınıflandırma algoritmaları, etiketli örneklerden karar sınırlarını veya sınıf olasılığı tahminlerini öğrenerek girdileri sonlu bir kategori kümesinden birine atamaktadır.
Tanım
Bir sınıflandırma algoritması, girdi-etiket çiftlerinden, her yeni girdiyi ayrık bir sınıfa eşleyen bir kural öğrenmektedir; üretken yaklaşımlar her sınıf içindeki girdilerin dağılımını modellemekte ve Bayes kuralını uygulamaktadır, ayırt edici yaklaşımlar ise sınıf sınırını veya sonsal olasılığı doğrudan modellemektedir.
Kapsam
Bu konu, kategorik etiketleri tahmin etmeye yönelik denetimli görevi kapsamaktadır: naive Bayes ve Gauss diskriminant analizi gibi olasılıksal üretken sınıflandırıcılar, lojistik regresyon gibi ayırt edici sınıflandırıcılar, k-en yakın komşular gibi örnek tabanlı yöntemler ve karar sınırı, sonsal sınıf olasılığı ve hatayı minimize eden Bayes-optimal sınıflandırıcı kavramları incelenmektedir.
Temel sorular
- Sınıflar arasındaki bir karar sınırı etiketli verilerden nasıl tahmin edilmektedir?
- Bir sınıflandırıcı, sınıf koşullu dağılımları modellemek yerine sonsal olasılığı doğrudan ne zaman modellemelidir?
- Bayes-optimal hata nedir ve öğrenilmiş bir sınıflandırıcı buna ne kadar yaklaşabilmektedir?
- Çok sınıflı problemler ikili sınıflandırmaya nasıl indirgenmekte veya onunla birlikte nasıl çözülmektedir?
Temel kuramlar
- Bayes-optimal sınıflandırma
- Her girdiyi en yüksek sonsal olasılığa sahip sınıfa atamak, beklenen yanlış sınıflandırma hatasını minimize etmekte ve pratik sınıflandırıcıların yaklaştığı teorik optimumu tanımlamaktadır.
- Üretken ve ayırt edici modeller
- Naive Bayes ve diskriminant analizi, verilerin her sınıf için nasıl üretildiğini modellerken, lojistik regresyon sınıfın sonsal olasılığını doğrudan modellemektedir; bu ayrım veri verimliliğini ve model yanlış belirtimine karşı sağlamlığı etkilemektedir.
- En yakın komşu sınıflandırması
- Yakındaki eğitim noktalarının etiketlerine göre sınıflandırma, hatası asimptotik olarak Bayes hatasının en fazla iki katı ile sınırlı olan basit bir parametrik olmayan kuraldır ve yalnızca yerel bilginin ne kadar güçlü olabileceğini göstermektedir.
Klinik önem
Sınıflandırma, e-posta spam tespiti, duygu analizi, görüntü etiketleme, dolandırıcılık tespiti ve bilgisayar destekli tanı gibi uygulamalı makine öğreniminin temelini oluşturmaktadır; Bayes optimumunu ve üretken-ayırt edici ayrımını anlamak, yöntem seçimini ve sınıf olasılığı çıktılarının yorumlanmasını yönlendirmektedir.
Tarihçe
İlk sınıflandırıcılar arasında Fisher'ın doğrusal diskriminantı ve Cover ile Hart tarafından 1967'de analiz edilen en yakın komşu kuralı bulunmaktadır. Lojistik regresyon istatistikten makine öğrenimine geçiş yapmış, naive Bayes ve diskriminant analizi standart olasılıksal temel yöntemler haline gelmiş, bunların hepsi daha sonra sonsal sınıf olasılıklarını tahmin etme çerçevesinde birleştirilmiştir.
Öne çıkan isimler
- Thomas Cover
- Peter Hart
- Christopher Bishop
İlgili konular
Temel eserler
- cover1967
- bishop2006
- hastie2009
Sıkça sorulan sorular
- Lojistik regresyon bir regresyon mu yoksa bir sınıflandırma yöntemi midir?
- Adına rağmen, lojistik regresyon sınıflandırma için kullanılmaktadır. Bir girdinin bir sınıfa ait olma olasılığını modellemekte ve bir karar kuralı daha sonra bu olasılığı tahmin edilen bir etikete dönüştürmektedir.
- k-en yakın komşular neden eğitim aşamasına ihtiyaç duymaz?
- k-en yakın komşular eğitim verilerini saklamakta ve tahmin anında en yakın saklanan örneklerine bakarak yeni bir noktayı sınıflandırmaktadır. Açıkça uyarlanmış bir model bulunmamaktadır, bu da eğitimi önemsiz kılmakla birlikte tahmini potansiyel olarak yavaş ve bellek yoğun hale getirebilmektedir.