ScholarGate
Asisten

Pemilihan dan Diagnostik Model

Pemilihan dan diagnostik model adalah langkah-langkah yang menentukan prediktor mana yang harus dimuat dalam model regresi dan apakah model yang telah disesuaikan dapat dipercaya. Pemilihan memilih dan menyusun prediktor; diagnostik memeriksa residual, observasi berpengaruh, dan asumsi; serta validasi memeriksa apakah model bekerja pada data yang tidak digunakan untuk pembangunannya. Bersama-sama, langkah-langkah ini mencegah overfitting dan kesimpulan yang menyesatkan.

Temukan Topik dengan PaperMindSegeraFind papers & topics
Tools & resources
Unduh salindia
Learn & explore
VideoSegera

Definition

Pemilihan model adalah proses memutuskan prediktor dan bentuk fungsional mana yang akan dimasukkan dalam model regresi; diagnostik model adalah prosedur — analisis residual, ukuran pengaruh, penilaian goodness-of-fit dan kalibrasi, serta validasi — yang digunakan untuk menilai apakah model yang disesuaikan memenuhi asumsinya dan bekerja secara memadai.

Scope

Entri ini mencakup strategi untuk membangun model regresi (termasuk pendekatan bertahap dan model lengkap serta bahaya pemilihan berbasis data), diagnostik residual dan pengaruh untuk memeriksa asumsi, ukuran kesesuaian dan kinerja prediktif seperti diskriminasi dan kalibrasi, serta validasi internal dan eksternal. Ini berlaku untuk model linier dan logistik dan merupakan topik metodologis, bukan panduan klinis.

Core questions

  • Bagaimana prediktor dipilih, dan mengapa pemilihan bertahap otomatis dikritik?
  • Bagaimana residual dan observasi berpengaruh digunakan untuk memeriksa model?
  • Apa perbedaan antara diskriminasi dan kalibrasi?
  • Mengapa model prediksi harus divalidasi daripada hanya dinilai berdasarkan data yang membangunnya?
  • Bagaimana overfitting dan optimisme mendistorsi kinerja yang tampak?

Key concepts

  • Pemilihan variabel (prediktor)
  • Pemilihan bertahap dan perangkapnya
  • Analisis residual
  • Observasi berpengaruh dan leverage
  • Goodness of fit
  • Diskriminasi dan kalibrasi
  • Overfitting dan optimisme
  • Validasi internal dan eksternal

Mechanisms

Membangun model regresi melibatkan pemilihan prediktor mana yang akan dimasukkan, dalam bentuk apa, dan apakah interaksi diperlukan; prosedur bertahap otomatis yang menambah atau menghilangkan prediktor berdasarkan signifikansi banyak dikritik karena memanfaatkan peluang, menghasilkan model yang tidak stabil, dan memberikan estimasi yang optimis. Diagnostik kemudian memeriksa model yang disesuaikan: plot residual mengungkapkan penyimpangan dari linearitas dan varians non-konstan, dan ukuran pengaruh mengidentifikasi observasi yang secara tidak proporsional mendorong kesesuaian. Kinerja dinilai berdasarkan goodness of fit dan, untuk prediksi, berdasarkan diskriminasi (seberapa baik model memisahkan hasil) dan kalibrasi (seberapa dekat risiko yang diprediksi dan yang diamati sesuai). Karena model yang disesuaikan dan dievaluasi pada data yang sama tampak lebih baik dari yang sebenarnya (optimisme dari overfitting), validasi internal (misalnya resampling) dan idealnya validasi eksternal pada data baru diperlukan untuk memperkirakan kinerja yang jujur.

Clinical relevance

Model diagnostik dan prognostik menginformasikan sebagian besar komunikasi risiko klinis, dan apakah model tersebut telah dipilih, diperiksa, dan divalidasi dengan benar menentukan seberapa besar bobot yang pantas diberikan pada prediksinya. Menilai langkah-langkah ini adalah bagian dari membaca studi model prediksi. Entri ini menjelaskan metode dan bukan merupakan dasar untuk keputusan diagnostik atau pengobatan individu.

Evidence & guidelines

Pernyataan TRIPOD menyediakan standar pelaporan untuk studi yang mengembangkan atau memvalidasi model prediksi multivariabel, dan seri penelitian prognostik BMJ menetapkan praktik yang direkomendasikan untuk membangun, memvalidasi, dan melaporkan model tersebut. Teks Harrell merinci strategi pembangunan dan validasi model lengkap yang menekankan penghindaran pemilihan berbasis data dan kuantifikasi optimisme.

History

Ketika regresi menjadi pusat penelitian medis, kekhawatiran tumbuh bahwa pemilihan prediktor berbasis data dan penyesuaian yang tidak terkontrol menghasilkan model yang tampak mengesankan dalam pengembangan tetapi gagal pada pasien baru. Sejak tahun 1990-an, para metodolog menekankan diagnostik, validasi internal dan eksternal, dan perbedaan antara diskriminasi dan kalibrasi; ini memuncak dalam panduan pelaporan konsensus, terutama pernyataan TRIPOD, untuk studi model prediksi.

Debates

Haruskah prediktor dipilih dengan pemilihan bertahap otomatis?
Pemilihan bertahap yang didorong oleh uji signifikansi sangat tidak dianjurkan karena menyebabkan overfitting, menghasilkan set prediktor yang tidak stabil, dan memberikan estimasi yang bias secara optimis; model yang telah ditentukan sebelumnya yang diinformasikan oleh pengetahuan subjek, dengan penyusutan dan validasi yang tepat, umumnya lebih disukai.
Mengapa validasi eksternal dianggap penting untuk model prediksi?
Model yang dievaluasi hanya pada data pengembangannya tampak lebih baik dari yang sebenarnya karena overfitting; kinerja pada data independen diperlukan untuk menilai apakah prediksi dapat digeneralisasi, itulah sebabnya standar pelaporan menekankan validasi.

Key figures

  • Frank Harrell
  • Douglas Altman
  • Karel Moons
  • Patrick Royston
  • Gary Collins

Related topics

Seminal works

  • harrell-2015
  • collins-2015-tripod

Frequently asked questions

Apa perbedaan antara diskriminasi dan kalibrasi?
Diskriminasi adalah seberapa baik model memisahkan individu yang memiliki dan tidak memiliki hasil, sedangkan kalibrasi adalah seberapa dekat probabilitas yang diprediksi model sesuai dengan frekuensi yang diamati. Sebuah model dapat mendiskriminasi dengan baik namun kalibrasinya buruk, sehingga keduanya harus dinilai.
Mengapa pemilihan variabel bertahap tidak dianjurkan?
Pemilihan bertahap otomatis memanfaatkan asosiasi kebetulan, menghasilkan set prediktor yang tidak stabil yang bervariasi antar sampel, dan menghasilkan koefisien serta kinerja yang bias secara optimis, itulah sebabnya model yang telah ditentukan sebelumnya dengan validasi yang tepat umumnya lebih disukai.

Methods for this concept

Related concepts