การออกแบบ การดำเนินการ และวิธีการทางสถิติของ GWAS
การออกแบบและวิเคราะห์การศึกษาความสัมพันธ์ทั่วทั้งจีโนม (GWAS) เป็นกระบวนการที่มีระเบียบวินัย: รวบรวมกลุ่มผู้ป่วยและกลุ่มควบคุมที่มีลักษณะฟีโนไทป์ที่ชัดเจน (หรือกลุ่มประชากรที่มีลักษณะเชิงปริมาณ), ทำการหาจีโนไทป์และประมาณค่าตัวแปรทั่วทั้งจีโนม, ทำความสะอาดข้อมูลผ่านการควบคุมคุณภาพอย่างเข้มงวด, ทดสอบแต่ละตัวแปรเพื่อหาความสัมพันธ์พร้อมกับการปรับแก้สำหรับเชื้อชาติ, และตัดสินสัญญาณเทียบกับเกณฑ์นัยสำคัญทั่วทั้งจีโนมก่อนที่จะทำการยืนยันผล แต่ละขั้นตอนมีขึ้นเพื่อป้องกันไม่ให้การทดสอบทางสถิติจำนวนมหาศาลก่อให้เกิดการค้นพบที่ผิดพลาด
Definition
การออกแบบและการวิเคราะห์ GWAS คือชุดของการเลือกการออกแบบการศึกษาและขั้นตอนทางสถิติที่ใช้ในการทดสอบความสัมพันธ์ของตัวแปร-ฟีโนไทป์ทั่วทั้งจีโนม, ควบคุมผลบวกปลอมจากการเปรียบเทียบหลายล้านครั้ง, และแยกสัญญาณที่น่าเชื่อถือออกจากสิ่งประดิษฐ์ของการหาจีโนไทป์, ความสัมพันธ์ทางสายเลือด, หรือเชื้อชาติ
Scope
หัวข้อนี้ครอบคลุมแกนหลักทางระเบียบวิธีของ GWAS: การกำหนดตัวอย่างและฟีโนไทป์, การหาจีโนไทป์และการประมาณค่า, ตัวกรองการควบคุมคุณภาพ, แบบจำลองความสัมพันธ์ของเครื่องหมายเดี่ยว, การแก้ไขการทดสอบหลายครั้งและนัยสำคัญทั่วทั้งจีโนม, การวินิจฉัยเช่นปัจจัยเงินเฟ้อทางจีโนมและแผนภาพ QQ/Manhattan, และการยืนยันผล เป็นข้อมูลอ้างอิงด้านระเบียบวิธีและไม่ใช่ระเบียบปฏิบัติสำหรับการทดสอบทางพันธุกรรมทางคลินิก
Core questions
- ขนาดตัวอย่างและการกำหนดฟีโนไทป์แบบใดที่ให้กำลังการทดสอบที่เพียงพอในการตรวจจับตัวแปรที่มีผลกระทบเล็กน้อย?
- ตัวกรองการควบคุมคุณภาพใดที่ใช้ในการกำจัดตัวแปรและตัวอย่างที่ไม่น่าเชื่อถือก่อนการทดสอบ?
- แบบจำลองการถดถอยใดที่ใช้สำหรับการทดสอบความสัมพันธ์ของเครื่องหมายเดี่ยว และมีการปรับเชื้อชาติอย่างไร?
- เกณฑ์นัยสำคัญใดที่ควบคุมผลบวกปลอมทั่วทั้งจีโนม และเหตุใดจึงอยู่ใกล้ 5 x 10^-8?
- สัญญาณที่แท้จริงแตกต่างจากเงินเฟ้อทางจีโนมอย่างไร และเหตุใดจึงต้องมีการยืนยันผล?
Key concepts
- การออกแบบแบบผู้ป่วย-กลุ่มควบคุมและลักษณะเชิงปริมาณ
- การระบุจีโนไทป์และการประมาณค่า
- การควบคุมคุณภาพ (อัตราการเรียก, MAF, ตัวกรองสมดุล Hardy-Weinberg)
- การทดสอบความสัมพันธ์ของเครื่องหมายเดี่ยว (การถดถอยโลจิสติกหรือเชิงเส้น)
- แบบจำลองทางพันธุกรรมแบบเพิ่มและผลกระทบต่ออัลลีล (อัตราส่วนความเสี่ยงหรือเบต้า)
- เกณฑ์นัยสำคัญทั่วทั้งจีโนม (~5 x 10^-8)
- ปัจจัยเงินเฟ้อทางจีโนม (แลมบ์ดา) และแผนภาพ QQ
- แผนภาพแมนฮัตตันและการยืนยันผล
Mechanisms
แต่ละตัวแปรมักจะถูกทดสอบด้วยแบบจำลองการถดถอย — โลจิสติกสำหรับสถานะโรคแบบไบนารี, เชิงเส้นสำหรับลักษณะเชิงปริมาณ — ซึ่งตัวแปรจะถูกเข้ารหัสภายใต้แบบจำลองแบบเพิ่ม (ต่ออัลลีล) และส่วนประกอบหลักของเชื้อชาติรวมถึงตัวแปรควบคุมอื่น ๆ จะถูกรวมไว้เพื่อควบคุมตัวแปรแทรกซ้อน ผลลัพธ์ต่อตัวแปรคือค่าประมาณผลกระทบ (อัตราส่วนความเสี่ยงหรือเบต้า) และค่า p-value เนื่องจากมีการทดสอบตัวแปรทั่วไปที่เป็นอิสระจำนวนหลายแสนถึงหลายล้านตัวแปร ความสำคัญจึงถูกตัดสินเทียบกับเกณฑ์ทั่วทั้งจีโนมที่ประมาณ 5 x 10^-8 ซึ่งได้มาจากการแก้ไขแบบ Bonferroni สำหรับจำนวนการทดสอบอิสระที่มีประสิทธิภาพ ก่อนการทดสอบ การควบคุมคุณภาพจะลบตัวอย่างและตัวแปรที่มีอัตราการเรียกต่ำ, การเบี่ยงเบนอย่างมากจากสมดุล Hardy-Weinberg ในกลุ่มควบคุม, ความถี่อัลลีลรองที่ต่ำมาก, หรือหลักฐานของความสัมพันธ์ทางสายเลือดและกลุ่มประชากรที่ผิดปกติ ปัจจัยเงินเฟ้อทางจีโนมและแผนภาพ QQ จะระบุตัวแปรแทรกซ้อนที่เหลืออยู่; แผนภาพ Manhattan จะแสดงสัญญาณทั่วทั้งจีโนม; และการยืนยันผลที่เป็นอิสระจะป้องกันสิ่งประดิษฐ์ที่เฉพาะเจาะจงกับการออกแบบ ซอฟต์แวร์เช่น PLINK ได้ทำให้ขั้นตอนเหล่านี้เป็นมาตรฐาน
Clinical relevance
การทำความเข้าใจการออกแบบและการวิเคราะห์ GWAS เป็นส่วนหนึ่งของการประเมินหลักฐานทางพันธุกรรมที่อ้างถึงในการวิจัยโรคและการสร้างคะแนนพหุพันธุกรรม หัวข้อนี้อธิบายว่าความสัมพันธ์ถูกสร้างและตรวจสอบได้อย่างไรและเป็นลักษณะเชิงพรรณนา; ไม่ใช่ขั้นตอนสำหรับการวินิจฉัยทางพันธุกรรมส่วนบุคคลหรือสำหรับการตัดสินใจทางคลินิก
Evidence & guidelines
แนวปฏิบัติการวิเคราะห์ได้รับการรวบรวมผ่านประสบการณ์ของกลุ่มความร่วมมือและการทบทวนระเบียบวิธีวิจัยมากกว่าแนวทางปฏิบัติทางคลินิกที่เป็นทางการ Wellcome Trust Case Control Consortium (2007) ได้แสดงให้เห็นถึงการออกแบบการควบคุมร่วมกันและการควบคุมคุณภาพอย่างเข้มงวดในขนาดใหญ่; PLINK (Purcell et al., 2007) กลายเป็นชุดเครื่องมือวิเคราะห์มาตรฐาน; และการทบทวนโดย McCarthy et al. (2008) และ Bush and Moore (2012) ได้กำหนดความคาดหวังที่เป็นที่ยอมรับอย่างกว้างขวางสำหรับกำลังการทดสอบ, การควบคุมคุณภาพ, เกณฑ์นัยสำคัญ, และการยืนยันผล
History
กระบวนการนี้เริ่มเป็นรูปเป็นร่างขึ้นพร้อมกับการสแกนจีโนมขนาดใหญ่ครั้งแรกในช่วงกลางทศวรรษ 2000 เมื่ออาร์เรย์ราคาไม่แพงและการประมาณค่าแบบ HapMap ทำให้การทดสอบทั่วทั้งจีโนมเป็นไปได้ การศึกษาของ Wellcome Trust Case Control Consortium ในปี 2007 ได้สร้างแบบอย่างที่มีอิทธิพลสำหรับการควบคุมร่วมกัน การควบคุมคุณภาพ และเกณฑ์ 5 x 10^-8 ในขณะที่การเปิดตัว PLINK ได้มอบชุดเครื่องมือวิเคราะห์ทั่วไปให้กับชุมชน การทบทวนระเบียบวิธีวิจัยได้ประมวลแนวปฏิบัติที่ดีที่สุดในเวลาต่อมา และชุดเครื่องมือวิเคราะห์ได้ขยายไปสู่แบบจำลองผสม วิธีการทางสถิติสรุป และกลุ่มประชากรชีวภาพขนาดใหญ่มาก
Debates
- เกณฑ์คงที่ 5 x 10^-8 เหมาะสมกับการออกแบบการศึกษาและเชื้อชาติที่แตกต่างกันหรือไม่?
- เกณฑ์ทั่วทั้งจีโนมตามธรรมเนียมถูกปรับเทียบสำหรับการแปรผันทั่วไปในตัวอย่างเชื้อสายยุโรป; การจัดลำดับที่หนาแน่นขึ้น, ตัวแปรที่หายากขึ้น, และเชื้อชาติอื่น ๆ บ่งชี้ถึงจำนวนการทดสอบอิสระที่มีประสิทธิภาพที่แตกต่างกัน ดังนั้นจึงมีการถกเถียงกันว่าเกณฑ์ควรเป็นเฉพาะกับการออกแบบหรือไม่
Key figures
- Shaun Purcell
- Mark McCarthy
- Jason Moore
- William Bush
- Peter Visscher
Related topics
Seminal works
- wtccc-2007
- purcell-2007
- mccarthy-2008
Frequently asked questions
- เหตุใดเกณฑ์นัยสำคัญของ GWAS จึงถูกกำหนดไว้ใกล้ 5 x 10^-8?
- เป็นการประมาณค่าการแก้ไขแบบ Bonferroni สำหรับตัวแปรทั่วไปที่เป็นอิสระประมาณหนึ่งล้านตัวในจีโนมมนุษย์ ซึ่งช่วยให้อัตราผลบวกปลอมทั่วทั้งจีโนมอยู่ใกล้ระดับ 0.05 ตามธรรมเนียม
- เหตุใดการค้นพบ GWAS จึงต้องได้รับการยืนยันผล?
- การศึกษาเพียงครั้งเดียวอาจสร้างความสัมพันธ์ที่ผิดพลาดจากปัญหาการควบคุมคุณภาพที่ละเอียดอ่อน, ตัวแปรแทรกซ้อนที่เหลืออยู่, หรือโอกาสที่ขอบเขตของนัยสำคัญ; การยืนยันผลที่เป็นอิสระในตัวอย่างที่แยกต่างหากเป็นการตรวจสอบมาตรฐานว่าสัญญาณนั้นเป็นของจริง