การจัดลำดับจีโนม การประกอบจีโนม และมาตรฐานอ้างอิง
สาขานี้ครอบคลุมถึงวิธีการอ่านลำดับนิวคลีโอไทด์ในจีโนม วิธีการสร้างชิ้นส่วนที่ได้ขึ้นใหม่ให้เป็นลำดับต่อเนื่องที่ยาวขึ้น และวิธีการสร้างและบำรุงรักษาจีโนมอ้างอิงที่ผ่านการคัดสรร เพื่อให้ข้อมูลใหม่สามารถนำมาจัดเรียงและตีความเทียบกับมาตรฐานร่วมกันได้ ขั้นตอนเหล่านี้รวมกันเป็นรากฐานทางเทคนิคที่รองรับงานจีโนมิกส์เกือบทั้งหมด
Definition
การจัดลำดับจีโนมคือการกำหนดลำดับนิวคลีโอไทด์ของ DNA ของสิ่งมีชีวิต การประกอบจีโนมคือการสร้างลำดับต่อเนื่องที่ยาวขึ้นโดยการนำข้อมูลลำดับที่อ่านได้ซึ่งทับซ้อนกันมาประกอบกันด้วยคอมพิวเตอร์ และมาตรฐานอ้างอิงคือชุดประกอบจีโนมและคำอธิบายประกอบที่ผ่านการคัดสรรและมีการกำหนดเวอร์ชัน ซึ่งใช้เป็นฐานในการจัดเรียงและเปรียบเทียบข้อมูลลำดับใหม่
Scope
สาขานี้ครอบคลุมตั้งแต่เคมีของการจัดลำดับจีโนม ตั้งแต่การจัดลำดับแบบ Sanger dideoxy ไปจนถึงแพลตฟอร์มการจัดลำดับแบบอ่านสั้นและอ่านยาวที่มีปริมาณงานสูง การประกอบข้อมูลที่อ่านได้ด้วยคอมพิวเตอร์ให้เป็นคอนทิกและสแคฟโฟลด์ การสร้างและระบุตำแหน่งของจีโนมอ้างอิง เช่น GRCh38 และการประกอบแบบ telomere-to-telomere รวมถึงขั้นตอนการควบคุมคุณภาพและการแก้ไขข้อผิดพลาดที่ควบคุมความน่าเชื่อถือของข้อมูล สาขานี้ถือว่าสิ่งเหล่านี้เป็นหัวข้อทางระเบียบวิธีและโครงสร้างพื้นฐาน ไม่ใช่ขั้นตอนทางคลินิก
Sub-topics
Core questions
- ลำดับนิวคลีโอไทด์ของจีโนมถูกกำหนดได้อย่างไร และเคมีของการจัดลำดับมีการพัฒนาไปอย่างไร?
- ข้อมูลลำดับแบบสั้นหรือยาวถูกสร้างขึ้นใหม่เป็นจีโนมที่สมบูรณ์ได้อย่างไร?
- อะไรที่ทำให้ชุดประกอบจีโนมเป็นจีโนมอ้างอิงที่ใช้งานได้ และมีการกำหนดเวอร์ชันและคำอธิบายประกอบอย่างไร?
- ข้อผิดพลาดในการจัดลำดับถูกตรวจจับ ประเมินปริมาณ และแก้ไขอย่างไร เพื่อให้การวิเคราะห์ขั้นปลายมีความน่าเชื่อถือ?
Key concepts
- ข้อมูลที่อ่านได้ (Read), คอนทิก (contig) และสแคฟโฟลด์ (scaffold)
- ความครอบคลุม (Coverage) และความลึกของการจัดลำดับ (sequencing depth)
- การจัดลำดับแบบอ่านสั้น (Short-read sequencing) เทียบกับการจัดลำดับแบบอ่านยาว (long-read sequencing)
- การประกอบแบบ de novo เทียบกับการจัดเรียงแบบอ้างอิง (reference-guided alignment)
- จีโนมอ้างอิง (Reference genome) และชุดสร้างจีโนม (genome build) (เช่น GRCh38)
- การระบุตำแหน่งจีโนม (Genome annotation)
- คะแนนคุณภาพต่อเบส (Per-base quality) (Phred score)
Mechanisms
แพลตฟอร์มการจัดลำดับจะแปลง DNA ทางกายภาพให้เป็นข้อมูลเบสที่เครื่องอ่านได้ โดยแต่ละข้อมูลจะมาพร้อมกับการประมาณค่าคุณภาพ เนื่องจากแพลตฟอร์มส่วนใหญ่อ่านได้เฉพาะชิ้นส่วนที่สั้นกว่าโครโมโซมมาก ชิ้นส่วนเหล่านี้จึงต้องถูกนำมาประกอบกัน: การประกอบแบบ de novo จะสร้างจีโนมขึ้นใหม่จากส่วนที่ทับซ้อนกันของข้อมูลที่อ่านได้ (ในอดีตใช้ overlap-layout-consensus ปัจจุบันมักใช้ de Bruijn graphs สำหรับข้อมูลอ่านสั้น) ในขณะที่การวิเคราะห์แบบอ้างอิงจะจัดเรียงข้อมูลที่อ่านได้เข้ากับชุดประกอบที่มีอยู่ จีโนมอ้างอิงคือลำดับฉันทามติที่ผ่านการคัดสรร มีการกำหนดเวอร์ชันเป็นชุดสร้างที่ต่อเนื่องกันและมีการเพิ่มคำอธิบายประกอบ ซึ่งเป็นระบบพิกัดสำหรับสาขานี้ การควบคุมคุณภาพและการแก้ไขข้อผิดพลาดจะครอบคลุมตลอดทั้งกระบวนการ โดยจะประมาณความแม่นยำต่อเบสและกำจัดหรือแก้ไขสิ่งแปลกปลอมก่อนที่จะระบุความแปรผัน
Clinical relevance
การจัดลำดับ การประกอบ และมาตรฐานอ้างอิงที่น่าเชื่อถือเป็นรากฐานสำคัญของจีโนมิกส์ทางคลินิกและการวิจัย เนื่องจากการตีความความแปรผันขึ้นอยู่กับข้อมูลที่อ่านได้อย่างแม่นยำซึ่งจัดเรียงเข้ากับจีโนมอ้างอิงที่มีการระบุลักษณะไว้อย่างดี สาขานี้อธิบายโครงสร้างพื้นฐานที่สร้างหลักฐานทางจีโนม; เป็นข้อมูลอ้างอิงและสื่อการศึกษา ไม่ใช่พื้นฐานสำหรับการตัดสินใจในการวินิจฉัยหรือการรักษาเฉพาะบุคคล
Evidence & guidelines
วิธีการในที่นี้ได้รับการบันทึกไว้ผ่านการศึกษาหลักเบื้องต้นและรายงานของกลุ่มความร่วมมือมากกว่าแนวทางปฏิบัติทางคลินิก: วิธีการ chain-termination ของ Sanger (1977), ร่างโครงการจีโนมมนุษย์ (2001), บทวิจารณ์แพลตฟอร์มยุคใหม่ (Metzker, 2010) และจีโนมมนุษย์แบบ telomere-to-telomere ที่สมบูรณ์ (Nurk et al., 2022) ล้วนแสดงให้เห็นถึงวิถีการพัฒนาของสาขานี้
History
การจัดลำดับ DNA เริ่มต้นด้วยเคมี chain-termination ของ Sanger ในปี 1977 ซึ่งทำให้สามารถอ่านจีโนมแรกได้และเป็นแรงผลักดันให้เกิดร่างลำดับของโครงการจีโนมมนุษย์ในปี 2001 การเพิ่มขึ้นของแพลตฟอร์มที่มีปริมาณงานสูง (next-generation) ในเวลาต่อมาทำให้ต้นทุนลดลงหลายเท่า และเทคโนโลยีการอ่านแบบยาวในภายหลังได้แก้ไขปัญหาบริเวณซ้ำซ้อน ซึ่งนำไปสู่จีโนมมนุษย์ที่สมบูรณ์และไม่มีช่องว่างเป็นครั้งแรกในปี 2022
Key figures
- Frederick Sanger
- Eric Lander
- Michael Metzker
- Sergey Koren
- Adam Phillippy
Related topics
Seminal works
- sanger-1977
- ihgsc-2001
- metzker-2009
- nurk-2022
Frequently asked questions
- ความแตกต่างระหว่างการจัดลำดับและการประกอบจีโนมคืออะไร?
- การจัดลำดับคือการอ่านลำดับของนิวคลีโอไทด์ในชิ้นส่วน DNA ในขณะที่การประกอบจีโนมเป็นขั้นตอนทางคอมพิวเตอร์ที่สร้างชิ้นส่วนเหล่านั้นขึ้นใหม่ให้เป็นลำดับต่อเนื่องที่ยาวขึ้น เช่น คอนทิก สแคฟโฟลด์ หรือโครโมโซมทั้งหมด
- ทำไมสาขานี้จึงต้องการจีโนมอ้างอิง?
- จีโนมอ้างอิงเป็นระบบพิกัดร่วมที่มีการกำหนดเวอร์ชัน เพื่อให้ข้อมูลลำดับใหม่จากบุคคลและห้องปฏิบัติการที่แตกต่างกันสามารถนำมาจัดเรียง เปรียบเทียบ และตีความได้อย่างสอดคล้องกัน