Pembelajaran Tanpa Pengawasan
Pembelajaran tanpa pengawasan menemukan struktur dalam data tanpa label, menemukan pengelompokan, representasi berdimensi rendah, dan faktor laten tanpa keluaran target untuk ditiru.
Definition
Pembelajaran tanpa pengawasan adalah inferensi struktur dari masukan saja, tanpa nilai target terkait; algoritma mencari deskripsi data yang ringkas seperti penugasan klaster, koordinat berdimensi rendah, atau variabel laten generatif yang menjelaskan bagaimana data yang diamati dapat muncul.
Scope
Area ini mencakup pembelajaran dari data tanpa label: pengelompokan, reduksi dimensi dan pembelajaran manifold, model variabel laten dan campuran yang disesuaikan dengan algoritma ekspektasi-maksimisasi, estimasi kepadatan, serta pembelajaran representasi dan swa-pengawasan modern yang menciptakan sinyal pelatihan dari data itu sendiri.
Sub-topics
Core questions
- Struktur apa yang dapat dipulihkan dari data tanpa label apa pun?
- Bagaimana pengelompokan atau klaster alami didefinisikan dan ditemukan?
- Bagaimana data berdimensi tinggi dapat diringkas oleh beberapa koordinat?
- Bagaimana model variabel laten menjelaskan pengamatan melalui penyebab tersembunyi?
Key theories
- Model variabel laten dan EM
- Banyak model tanpa pengawasan mengemukakan variabel tersembunyi yang menghasilkan data, dan algoritma ekspektasi-maksimisasi menyesuaikannya dengan bergantian antara menginferensi variabel laten dan memperbarui parameter untuk meningkatkan kemungkinan.
- Reduksi dimensi
- Metode seperti analisis komponen utama dan pembelajaran manifold menemukan representasi berdimensi rendah yang mempertahankan variasi paling penting, memungkinkan visualisasi, kompresi, dan pengurangan kebisingan.
- Struktur pengelompokan
- Pengelompokan mempartisi data menjadi kelompok-kelompok item serupa, diformalkan secara bervariasi melalui jarak dalam klaster, campuran probabilistik, atau kepadatan, tanpa definisi tunggal tentang jumlah atau bentuk klaster yang tepat.
Clinical relevance
Pembelajaran tanpa pengawasan sangat penting di mana label langka atau tidak ada, mendukung segmentasi pelanggan, deteksi anomali, analisis data eksplorasi, dan pra-pelatihan representasi yang menggerakkan sistem pengawasan dan bahasa modern; karena tidak ada target kebenaran dasar, mengevaluasi hasil tanpa pengawasan itu sendiri merupakan masalah yang rumit dan penting.
History
Pembelajaran tanpa pengawasan berakar pada pengelompokan dan analisis faktor dari statistik serta dalam jaringan saraf yang mengatur diri sendiri. Algoritma ekspektasi-maksimisasi, yang diformalkan pada tahun 1977, menyatukan penyesuaian model variabel laten, dan dalam beberapa tahun terakhir pembelajaran representasi swa-pengawasan telah menjadi paradigma dominan untuk pra-pelatihan model besar pada data tanpa label.
Debates
- Bagaimana mengevaluasi hasil tanpa pengawasan
- Tanpa label tidak ada jawaban tunggal yang benar, sehingga menilai pengelompokan atau representasi yang dipelajari bergantung pada kriteria tidak langsung, kinerja tugas hilir, atau interpretasi manusia, dan ukuran validitas yang berbeda dapat tidak setuju.
Key figures
- Arthur Dempster
- Donald Rubin
- Geoffrey Hinton
- Christopher Bishop
Related topics
Seminal works
- bishop2006
- hastie2009
- dempster1977
Frequently asked questions
- Bagaimana model dapat belajar tanpa label?
- Metode tanpa pengawasan memanfaatkan struktur yang sudah ada dalam data, seperti titik mana yang berdekatan, arah mana yang membawa variasi paling banyak, atau faktor laten mana yang dapat menghasilkan pengamatan. Keteraturan data itu sendiri menyediakan sinyal.
- Mengapa pembelajaran tanpa pengawasan sulit dievaluasi?
- Tidak ada target kebenaran dasar untuk dibandingkan, sehingga keberhasilan dinilai secara tidak langsung, misalnya seberapa dapat diinterpretasikan klaster tersebut atau seberapa baik representasi yang dipelajari membantu tugas pengawasan selanjutnya. Kriteria yang berbeda dapat memberi peringkat hasil yang sama secara berbeda.