Variabel Laten dan Model Campuran
Model variabel laten dan campuran menjelaskan data yang diamati melalui variabel tersembunyi, menyesuaikannya dengan secara bergantian menyimpulkan struktur tersembunyi dan memperbarui parameter.
Definition
Model variabel laten merepresentasikan setiap observasi yang dihasilkan dengan bantuan variabel yang tidak teramati, seperti komponen campuran mana yang menghasilkan suatu titik; algoritma ekspektasi-maksimisasi mengestimasi parameter dengan berulang kali menghitung nilai yang diharapkan dari variabel laten dan memaksimalkan kemungkinan yang dihasilkan.
Scope
Topik ini mencakup model probabilistik dengan variabel yang tidak teramati: model campuran terbatas seperti campuran Gaussian, model Markov tersembunyi untuk urutan, dan algoritma ekspektasi-maksimisasi yang menyesuaikannya dengan memaksimalkan kemungkinan. Ini juga mencakup hubungan dengan pengelompokan lunak (soft clustering), estimasi kepadatan, dan pandangan variasi EM sebagai pembatas kemungkinan data.
Core questions
- Bagaimana variabel tersembunyi menjelaskan data yang diamati?
- Bagaimana algoritma ekspektasi-maksimisasi meningkatkan kemungkinan pada setiap langkah?
- Bagaimana campuran Gaussian melakukan pengelompokan lunak dan estimasi kepadatan?
- Mengapa EM mungkin hanya konvergen ke optimum lokal?
Key theories
- Algoritma ekspektasi-maksimisasi
- EM secara bergantian melakukan langkah ekspektasi yang menyimpulkan distribusi atas variabel laten dengan langkah maksimisasi yang memperbarui parameter, terbukti tidak pernah mengurangi kemungkinan data dan konvergen ke titik stasioner.
- Model campuran Gaussian
- Memodelkan data sebagai jumlah tertimbang dari komponen Gaussian menghasilkan estimasi kepadatan yang fleksibel dan penugasan klaster lunak, dengan setiap titik diberikan probabilitas untuk termasuk dalam setiap komponen.
- EM sebagai maksimisasi batas bawah
- EM dapat dilihat sebagai maksimisasi batas bawah variasi pada log-kemungkinan, sebuah perspektif yang menggeneralisasi inferensi perkiraan dalam model variabel laten yang lebih kompleks.
Clinical relevance
Model variabel laten mendasari pengelompokan lunak, estimasi kepadatan, imputasi data yang hilang, dan pemodelan urutan dengan model Markov tersembunyi dalam ucapan dan bioinformatika; algoritma ekspektasi-maksimisasi yang mereka andalkan adalah salah satu prosedur optimasi yang paling banyak digunakan dalam statistik dan pembelajaran mesin.
History
Kasus-kasus khusus dari ide ekspektasi-maksimisasi muncul dalam genetika dan masalah data tidak lengkap sebelum Dempster, Laird, dan Rubin memberikan formulasi umum pada tahun 1977. Campuran Gaussian dan model Markov tersembunyi menjadi alat variabel laten standar, dan reinterpretasi variasi EM kemudian menghubungkannya dengan metode inferensi perkiraan modern.
Key figures
- Arthur Dempster
- Nan Laird
- Donald Rubin
Related topics
Seminal works
- dempster1977
- bishop2006
- murphy2012
Frequently asked questions
- Apa itu variabel laten?
- Variabel laten adalah kuantitas yang tidak teramati yang disertakan dalam model untuk menjelaskan data yang diamati, seperti klaster tersembunyi mana yang menghasilkan suatu titik data. Model menyimpulkan distribusi atas variabel tersembunyi ini daripada mengukurnya secara langsung.
- Mengapa algoritma EM bisa macet?
- EM meningkatkan kemungkinan pada setiap langkah tetapi hanya menjamin konvergensi ke maksimum lokal atau titik stasioner. Inisialisasi yang berbeda dapat mengarah pada solusi yang berbeda, sehingga praktisi sering menjalankannya beberapa kali dari nilai awal yang berbeda.