มาตรฐานและการระบุข้อมูลจีโนมอ้างอิง
จีโนมอ้างอิงคือลำดับคอนเซนซัสที่ได้รับการดูแลจัดการและเป็นตัวแทนของสปีชีส์ ซึ่งทำหน้าที่เป็นระบบพิกัดร่วมที่ใช้ในการจัดเรียงและตีความข้อมูลลำดับใหม่ การบำรุงรักษาจีโนมอ้างอิงในรูปแบบของเวอร์ชันที่สร้างขึ้น และการเพิ่มข้อมูลชีวภาพลงไป คือสิ่งที่ทำให้ผลลัพธ์ทางจีโนมิกส์สามารถเปรียบเทียบกันได้ในงานวิจัย ห้องปฏิบัติการ และช่วงเวลาที่แตกต่างกัน
Definition
จีโนมอ้างอิงคือลำดับนิวคลีโอไทด์คอนเซนซัสที่ได้รับการดูแลจัดการซึ่งถูกเลือกเพื่อเป็นตัวแทนของจีโนมของสปีชีส์ โดยได้รับการบำรุงรักษาในรูปแบบของชุดประกอบที่มีเวอร์ชัน (builds) และมีการระบุตำแหน่งของยีนและองค์ประกอบการทำงานอื่น ๆ ซึ่งเป็นกรอบพิกัดที่มั่นคงสำหรับการจัดเรียงและตีความข้อมูลจีโนมิกส์
Scope
บทความนี้ครอบคลุมถึงสิ่งที่ชุดประกอบอ้างอิงคือ วิธีการสร้างเวอร์ชันเป็นชุดประกอบที่ต่อเนื่องกัน (เช่น ชุดประกอบ GRCh38 ของมนุษย์ และชุดประกอบแบบ telomere-to-telomere) บทบาทของการระบุข้อมูลในการทำเครื่องหมายยีนและคุณสมบัติการทำงาน และการก้าวไปสู่การอ้างอิงที่สมบูรณ์และเป็นตัวแทนมากขึ้น นี่เป็นหัวข้ออ้างอิงและโครงสร้างพื้นฐาน ไม่ใช่คำแนะนำทางคลินิก
Core questions
- จีโนมอ้างอิงคืออะไร และเหตุใดวงการวิชาการจึงใช้มาตรฐานเดียวกัน?
- ชุดประกอบอ้างอิงถูกสร้างเวอร์ชันเป็นชุดประกอบที่ต่อเนื่องกันได้อย่างไรและเพราะเหตุใด?
- การระบุข้อมูลจีโนมเพิ่มอะไรให้กับลำดับอ้างอิง?
Key concepts
- ชุดประกอบอ้างอิง (ลำดับคอนเซนซัส)
- การสร้างและกำหนดเวอร์ชันจีโนม (เช่น GRCh38)
- การระบุข้อมูลจีโนม
- ระบบพิกัดสำหรับการจัดเรียง
- ชุดประกอบแบบ Telomere-to-telomere (ไม่มีช่องว่าง)
- ช่องว่างของชุดประกอบและการทำให้สมบูรณ์
Mechanisms
จีโนมอ้างอิงถูกประกอบขึ้นจากข้อมูลลำดับคุณภาพสูงให้เป็นคอนเซนซัสที่เป็นตัวแทนของสปีชีส์มากกว่าที่จะเป็นของบุคคลใดบุคคลหนึ่ง จากนั้นจึงเผยแพร่เป็นชุดประกอบที่มีเวอร์ชัน เพื่อให้พิกัดทางจีโนมยังคงเสถียรและสามารถอ้างอิงได้ การระบุข้อมูลจะซ้อนทับตำแหน่งของยีน ทรานสคริปต์ และองค์ประกอบควบคุมและซ้ำซ้อนลงบนลำดับ เปลี่ยนพิกัดดิบให้เป็นแผนที่ที่สามารถตีความทางชีวภาพได้ ชุดประกอบที่ต่อเนื่องกันจะรวมการแก้ไข อุดช่องว่าง และปรับปรุงการเป็นตัวแทน จีโนมอ้างอิงของมนุษย์ได้พัฒนาจากฉบับร่างปี 2001 และลำดับยูโครมาตินที่สมบูรณ์ในปี 2004 ไปสู่ชุดประกอบ GRCh38 และในที่สุดก็เป็นชุดประกอบแบบ telomere-to-telomere ที่สมบูรณ์ ซึ่งแก้ไขปัญหาในบริเวณที่ไม่สามารถเข้าถึงได้ก่อนหน้านี้
Clinical relevance
เนื่องจากการระบุและการตีความความแปรผันถูกแสดงในพิกัดอ้างอิง การเลือกและเวอร์ชันของจีโนมอ้างอิงจึงส่งผลโดยตรงต่อวิธีการรายงานและเปรียบเทียบผลการวิจัยทางจีโนมิกส์ บทความนี้อธิบายโครงสร้างพื้นฐานของการอ้างอิงในฐานะสื่อการศึกษา และไม่ใช่พื้นฐานสำหรับการตัดสินใจทางคลินิกหรือการวินิจฉัยของแต่ละบุคคล
Evidence & guidelines
การอ้างอิงนี้ได้รับการจัดทำเป็นเอกสารผ่านรายงานหลักของกลุ่มความร่วมมือและการประเมินชุดประกอบ แทนที่จะเป็นแนวทางทางคลินิก: ฉบับร่างเริ่มต้น (2001) และลำดับยูโครมาตินที่สมบูรณ์ (2004) การประเมินชุดประกอบ GRCh38 (Schneider et al., 2017) และจีโนมมนุษย์แบบ telomere-to-telomere ที่สมบูรณ์ (Nurk et al., 2022) กำหนดมาตรฐานปัจจุบันและแนวโน้มของมัน
History
จีโนมอ้างอิงของมนุษย์เริ่มต้นด้วยฉบับร่างลำดับในปี 2001 และลำดับยูโครมาตินที่สมบูรณ์ในปี 2004 จากนั้นได้รับการบำรุงรักษาและปรับปรุงโดย Genome Reference Consortium ผ่านชุดประกอบที่ต่อเนื่องกัน ซึ่งสิ้นสุดที่ GRCh38 ช่องว่างที่คงอยู่ในบริเวณที่ซ้ำซ้อนและเซนโทรเมียร์ได้รับการปิดในที่สุดโดยกลุ่มความร่วมมือ telomere-to-telomere ซึ่งสร้างจีโนมมนุษย์ที่สมบูรณ์และไม่มีช่องว่างเป็นครั้งแรกในปี 2022 และปรับเปลี่ยนสิ่งที่มาตรฐานอ้างอิงสามารถเป็นได้
Key figures
- Deanna Church
- Valerie Schneider
- Adam Phillippy
- Karen Miga
Related topics
Seminal works
- ihgsc-2004
- schneider-2017
- nurk-2022-ref
Frequently asked questions
- เหตุใดจีโนมอ้างอิงจึงมีเวอร์ชันหรือชุดประกอบที่แตกต่างกัน?
- เมื่อการจัดลำดับและการประกอบดีขึ้น จีโนมอ้างอิงจะถูกปรับปรุงเพื่อแก้ไขข้อผิดพลาด อุดช่องว่าง และเป็นตัวแทนของสปีชีส์ได้ดีขึ้น การเผยแพร่แต่ละครั้งจะได้รับเวอร์ชันของชุดประกอบเพื่อให้พิกัดทางจีโนมยังคงเสถียรและผลลัพธ์สามารถเปรียบเทียบกันได้
- การระบุข้อมูลจีโนมคืออะไร?
- การระบุข้อมูลคือกระบวนการทำเครื่องหมายตำแหน่งของยีน ทรานสคริปต์ องค์ประกอบควบคุม และคุณสมบัติอื่น ๆ บนลำดับอ้างอิง เปลี่ยนสายของนิวคลีโอไทด์ให้เป็นแผนที่ที่สามารถตีความทางชีวภาพได้