Giải trình tự, lắp ráp và tiêu chuẩn tham chiếu bộ gen
Lĩnh vực này bao gồm cách đọc trình tự nucleotide trong bộ gen, cách các đoạn thu được được tái tạo thành các trình tự liên tục dài hơn, và cách các bộ gen tham chiếu được quản lý xây dựng và duy trì để dữ liệu mới có thể được căn chỉnh và diễn giải theo một tiêu chuẩn chung. Cùng với nhau, các bước này tạo thành nền tảng kỹ thuật mà gần như toàn bộ lĩnh vực gen học dựa vào.
Definition
Giải trình tự bộ gen là việc xác định trình tự nucleotide của DNA của một sinh vật; lắp ráp là việc tái tạo bằng máy tính các đoạn đọc trình tự chồng chéo thành các trình tự liên tục dài hơn; và các tiêu chuẩn tham chiếu là các bộ gen đã được lắp ráp và chú thích được quản lý, có phiên bản, mà dữ liệu trình tự mới được căn chỉnh và so sánh với chúng.
Scope
Lĩnh vực này bao gồm các hóa chất giải trình tự từ giải trình tự dideoxy Sanger đến các nền tảng đọc ngắn và đọc dài thông lượng cao, việc lắp ráp tính toán các đoạn đọc thành các contig và scaffold, việc xây dựng và chú thích các bộ gen tham chiếu như GRCh38 và lắp ráp telomere-to-telomere, cũng như các bước kiểm soát chất lượng và sửa lỗi nhằm đảm bảo độ tin cậy của dữ liệu. Lĩnh vực này xem xét các vấn đề này như các chủ đề về phương pháp luận và cơ sở hạ tầng, không phải là các quy trình lâm sàng.
Sub-topics
Core questions
- Trình tự nucleotide của bộ gen được xác định như thế nào, và các hóa chất giải trình tự đã phát triển ra sao?
- Các đoạn đọc trình tự ngắn hoặc dài được tái tạo thành một bộ gen hoàn chỉnh như thế nào?
- Điều gì làm cho một bộ gen được lắp ráp trở thành một tham chiếu có thể sử dụng được, và nó được lập phiên bản và chú thích như thế nào?
- Các lỗi giải trình tự được phát hiện, định lượng và sửa chữa như thế nào để các phân tích tiếp theo đáng tin cậy?
Key concepts
- Đoạn đọc (Read), contig và scaffold
- Độ phủ (Coverage) và độ sâu giải trình tự (sequencing depth)
- Giải trình tự đọc ngắn so với giải trình tự đọc dài
- Lắp ráp de novo so với căn chỉnh dựa trên tham chiếu
- Bộ gen tham chiếu và bản dựng bộ gen (ví dụ: GRCh38)
- Chú thích bộ gen
- Điểm chất lượng trên từng base (Phred)
Mechanisms
Các nền tảng giải trình tự chuyển đổi DNA vật lý thành các tín hiệu base có thể đọc được bằng máy, mỗi tín hiệu đi kèm với một ước tính chất lượng. Bởi vì hầu hết các nền tảng chỉ đọc các đoạn ngắn hơn nhiều so với một nhiễm sắc thể, các đoạn này phải được lắp ráp: lắp ráp de novo tái tạo bộ gen từ các đoạn đọc chồng chéo (trong lịch sử là overlap-layout-consensus, hiện nay thường là biểu đồ de Bruijn cho các đoạn đọc ngắn), trong khi phân tích dựa trên tham chiếu căn chỉnh các đoạn đọc với một bộ gen đã được lắp ráp hiện có. Một bộ gen tham chiếu là một trình tự đồng thuận được quản lý, được lập phiên bản dưới dạng các bản dựng kế tiếp và được chú thích theo lớp, cung cấp hệ thống tọa độ cho lĩnh vực này. Kiểm soát chất lượng và sửa lỗi diễn ra trên toàn bộ quy trình, ước tính độ chính xác trên từng base và loại bỏ hoặc sửa chữa các sai sót trước khi xác định các biến thể.
Clinical relevance
Các tiêu chuẩn giải trình tự, lắp ráp và tham chiếu đáng tin cậy là nền tảng cho gen học lâm sàng và nghiên cứu, vì việc diễn giải biến thể phụ thuộc vào các đoạn đọc chính xác được căn chỉnh với một tham chiếu được mô tả rõ ràng. Lĩnh vực này mô tả cơ sở hạ tầng tạo ra bằng chứng gen học; đây là tài liệu tham khảo và giáo dục chứ không phải là cơ sở cho các quyết định chẩn đoán hoặc điều trị cá nhân.
Evidence & guidelines
Các phương pháp ở đây được ghi lại thông qua các nghiên cứu sơ cấp quan trọng và báo cáo của các tập đoàn hơn là các hướng dẫn lâm sàng: phương pháp kết thúc chuỗi của Sanger (1977), bản nháp Dự án Bộ gen Người (2001), các đánh giá về các nền tảng thế hệ tiếp theo (Metzker, 2010), và bộ gen người telomere-to-telomere hoàn chỉnh (Nurk et al., 2022) đã vạch ra quỹ đạo của lĩnh vực này.
History
Giải trình tự DNA bắt đầu với hóa học kết thúc chuỗi của Sanger vào năm 1977, cho phép đọc các bộ gen đầu tiên và thúc đẩy trình tự bản nháp của Dự án Bộ gen Người vào năm 2001. Sự phát triển sau đó của các nền tảng thông lượng cao (thế hệ tiếp theo) đã giảm chi phí xuống nhiều bậc, và các công nghệ đọc dài sau đó đã giải quyết các vùng lặp lại, đỉnh điểm là bộ gen người hoàn chỉnh, không có khoảng trống đầu tiên vào năm 2022.
Key figures
- Frederick Sanger
- Eric Lander
- Michael Metzker
- Sergey Koren
- Adam Phillippy
Related topics
Seminal works
- sanger-1977
- ihgsc-2001
- metzker-2009
- nurk-2022
Frequently asked questions
- Sự khác biệt giữa giải trình tự và lắp ráp là gì?
- Giải trình tự đọc trình tự nucleotide trong các đoạn DNA, trong khi lắp ráp là bước tính toán tái tạo các đoạn đó thành các trình tự liên tục dài hơn như contig, scaffold hoặc toàn bộ nhiễm sắc thể.
- Tại sao lĩnh vực này cần một bộ gen tham chiếu?
- Một bộ gen tham chiếu cung cấp một hệ thống tọa độ chung, có phiên bản để dữ liệu trình tự mới từ các cá thể và phòng thí nghiệm khác nhau có thể được căn chỉnh, so sánh và diễn giải một cách nhất quán.