Pengayaan Jalur dan Analisis Jaringan
Eksperimen genomik sering kali diakhiri dengan daftar puluhan atau ratusan gen — terlalu banyak untuk diinterpretasikan satu per satu. Analisis pengayaan jalur mengajukan pertanyaan yang lebih tajam: mengingat daftar gen ini, apakah ada jalur atau proses biologis yang diketahui terwakili lebih dari yang diharapkan secara kebetulan? Ini adalah rute standar dari daftar gen ke interpretasi biologis.
Definition
Analisis pengayaan jalur adalah serangkaian metode statistik yang menguji apakah gen yang dianotasi ke jalur biologis atau set gen yang ditentukan terlalu banyak terwakili di antara gen yang terlibat oleh suatu eksperimen, baik dalam daftar yang dipilih (analisis over-representasi) atau di seluruh daftar yang diberi peringkat secara berkelanjutan (analisis pengayaan set gen).
Scope
Topik ini mencakup dua keluarga utama metode pengayaan — analisis over-representasi pada daftar gen yang dipilih dan pengayaan set gen di seluruh daftar yang diberi peringkat penuh — bersama dengan sumber daya jalur terkurasi yang mereka gunakan dan jebakan statistik yang memengaruhi validitasnya. Ini adalah referensi metodologis dan tidak memberikan interpretasi klinis dari hasil.
Core questions
- Mengingat daftar gen, jalur atau proses mana yang secara statistik terlalu banyak terwakili?
- Bagaimana pengayaan berbasis peringkat berbeda dari over-representasi berbasis ambang batas?
- Set gen latar belakang (referensi) mana yang harus dievaluasi dalam suatu pengujian?
- Bagaimana koreksi pengujian berganda dan bias panjang atau seleksi dikendalikan?
Key concepts
- Analisis over-representasi (ORA)
- Analisis pengayaan set gen (GSEA)
- Set gen dan basis data jalur (KEGG, Reactome, istilah GO)
- Set gen latar belakang atau referensi
- Koreksi pengujian berganda
- Bias seleksi dan panjang dalam pengayaan RNA-seq
Mechanisms
Analisis over-representasi mengambil daftar gen yang sudah dipilih berdasarkan ambang batas — misalnya, gen yang disebut diekspresikan secara berbeda — dan menanyakan, biasanya dengan uji hipergeometrik atau uji eksak Fisher, apakah ada jalur yang mengandung lebih banyak gen tersebut daripada yang diharapkan mengingat latar belakangnya. Analisis pengayaan set gen justru menggunakan seluruh daftar gen yang diberi peringkat dan menguji apakah anggota suatu jalur cenderung mengelompok ke arah atas atau bawah peringkat, menghindari kebutuhan untuk memilih ambang batas yang keras. Keduanya bergantung pada set gen terkurasi yang diambil dari sumber daya seperti Gene Ontology, KEGG, dan Reactome. Validitas bergantung pada pemilihan latar belakang yang sesuai dan koreksi untuk banyak jalur yang diuji; untuk data RNA-seq, metode juga harus memperhitungkan kecenderungan gen yang lebih panjang atau lebih banyak diekspresikan untuk terdeteksi sebagai signifikan, bias seleksi yang dapat disalahartikan oleh uji pengayaan yang tidak dikoreksi sebagai sinyal biologis.
Clinical relevance
Pengayaan jalur adalah langkah interpretatif yang mengubah hasil ekspresi diferensial atau varian menjadi pernyataan tentang proses biologis, dan secara luas digunakan dalam genomik translasi untuk menghasilkan hipotesis mekanistik. Ini menjelaskan bagaimana hasil tingkat gen diringkas pada tingkat jalur dan dimaksudkan sebagai orientasi referensi, bukan sebagai dasar untuk keputusan diagnostik atau pengobatan individu.
History
Interpretasi fungsional awal menghitung berapa banyak gen dari daftar yang termasuk dalam setiap kategori anotasi, diformalkan dalam alat over-representasi seperti DAVID. Analisis pengayaan set gen (2005) membingkai ulang masalah di sekitar daftar gen berperingkat penuh, yang terbukti lebih sensitif terhadap perubahan terkoordinasi dan halus di seluruh jalur. Ketika RNA-seq menggantikan microarray, metode seperti GOseq (2010) mengoreksi bias panjang dan jumlah spesifik untuk data pengurutan, dan sumber daya jalur terkurasi termasuk KEGG dan Reactome menjadi masukan set gen standar.
Debates
- Over-representasi versus pengayaan berbasis peringkat
- Analisis over-representasi memerlukan ambang batas signifikansi dan dengan demikian membuang informasi di bawah batas, sedangkan pengayaan set gen menggunakan seluruh peringkat; masing-masing memiliki sensitivitas dan asumsi yang berbeda, dan pilihan dapat mengubah jalur mana yang dilaporkan.
- Bias dalam pengayaan dari data pengurutan
- Dalam RNA-seq, gen yang lebih panjang dan lebih banyak diekspresikan lebih mungkin disebut signifikan, sehingga uji pengayaan naif dapat melaporkan jalur yang diperkaya untuk gen panjang daripada untuk biologi asli kecuali bias seleksi ini dikoreksi.
Key figures
- Aravind Subramanian
- Jill Mesirov
- Da Wei Huang
- Minoru Kanehisa
Related topics
Seminal works
- subramanian-2005
- huang-2009
- kanehisa-2000
- young-2010
Frequently asked questions
- Apa perbedaan antara analisis over-representasi dan analisis pengayaan set gen?
- Analisis over-representasi menguji daftar gen yang telah dipilih sebelumnya (misalnya, yang di atas ambang batas signifikansi) untuk over-representasi jalur, sedangkan analisis pengayaan set gen menggunakan seluruh daftar gen yang diberi peringkat dan menanyakan apakah anggota suatu jalur mengelompok ke arah ekstrem peringkat, menghindari batas keras.
- Mengapa pilihan set gen latar belakang penting?
- Pengayaan dinilai relatif terhadap set gen referensi; menggunakan latar belakang yang tidak sesuai (misalnya, semua gen ketika hanya sebagian yang dapat dideteksi) dapat membuat jalur tampak diperkaya atau habis karena alasan statistik daripada biologis.
Methods for this concept
- Pathway Enrichment Analysis
- Gene Set Enrichment Analysis
- Bayesian Pathway Enrichment Analysis
- Network-based gene set enrichment analysis
- Differential pathway enrichment analysis
- Bayesian Gene Set Enrichment Analysis
- Network-based pathway enrichment analysis
- Machine learning-assisted pathway enrichment analysis