Các Thuật Toán và Phương Pháp Lắp Ráp Bộ Gen
Lắp ráp bộ gen là bài toán tính toán về việc tái tạo bộ gen từ nhiều đoạn đọc ngắn hoặc dài chồng chéo được tạo ra bằng cách giải trình tự, vì không có công nghệ hiện tại nào có thể đọc toàn bộ nhiễm sắc thể từ đầu đến cuối. Các thuật toán giải quyết vấn đề này xác định mức độ hoàn chỉnh và chính xác của việc phục hồi bộ gen từ dữ liệu trình tự thô.
Definition
Lắp ráp bộ gen là quá trình tái tạo thuật toán trình tự của bộ gen bằng cách phát hiện các đoạn chồng chéo giữa các đoạn đọc giải trình tự và hợp nhất chúng thành các trình tự liên tục dài hơn (contig), sau đó có thể được sắp xếp và định hướng thành các scaffold, có thể không cần (de novo) hoặc cần (dựa trên tham chiếu) một tham chiếu hiện có.
Scope
Mục này bao gồm hai mô hình thuật toán chủ đạo, chồng lấp-bố cục-đồng thuận (overlap-layout-consensus) và đồ thị de Bruijn, sự khác biệt giữa lắp ráp de novo và lắp ráp dựa trên tham chiếu, cùng với các khái niệm về contig và scaffold. Đây là một chủ đề phương pháp luận tập trung vào bước tái tạo bằng tính toán và không đề cập đến các quy trình trong phòng thí nghiệm hoặc sử dụng lâm sàng.
Core questions
- Tại sao các đoạn đọc giải trình tự phải được lắp ráp thay vì đọc trực tiếp dưới dạng toàn bộ nhiễm sắc thể?
- Các cách tiếp cận chồng lấp-bố cục-đồng thuận và đồ thị de Bruijn khác nhau như thế nào?
- Điều gì giới hạn sự hoàn chỉnh của lắp ráp, và các đoạn lặp và độ dài đoạn đọc có vai trò gì?
Key concepts
- Lắp ráp chồng lấp-bố cục-đồng thuận
- Lắp ráp đồ thị de Bruijn
- k-mer
- Contig và scaffold
- Lắp ráp de novo so với lắp ráp dựa trên tham chiếu
- Giải quyết đoạn lặp
- Tính liên tục của lắp ráp (ví dụ: N50)
Mechanisms
Các thuật toán lắp ráp tái tạo bộ gen bằng cách khai thác các đoạn chồng chéo giữa các đoạn đọc. Các phương pháp chồng lấp-bố cục-đồng thuận tính toán các đoạn chồng chéo từng cặp giữa các đoạn đọc, sắp xếp chúng thành một bố cục và tạo ra một trình tự đồng thuận; cách tiếp cận này phù hợp với các đoạn đọc dài hơn và là nền tảng cho các lắp ráp shotgun toàn bộ bộ gen ban đầu. Các phương pháp đồ thị de Bruijn thay vào đó chia các đoạn đọc thành các trình tự con có độ dài cố định (k-mer) và biểu diễn bộ gen dưới dạng các đường đi qua một đồ thị của các k-mer chồng chéo, điều này mở rộng hiệu quả cho số lượng rất lớn các đoạn đọc ngắn được tạo ra bằng giải trình tự thông lượng cao. Các vùng lặp lại dài hơn độ dài đoạn đọc tạo ra sự mơ hồ làm phân mảnh các lắp ráp, vì vậy các đoạn đọc dài hơn và thông tin cặp được sử dụng để giải quyết chúng và liên kết các contig thành các scaffold.
Clinical relevance
Lắp ráp bộ gen là nền tảng tính toán biến dữ liệu giải trình tự thô thành các trình tự liên tục được sử dụng để xây dựng bộ gen tham chiếu và nghiên cứu các sinh vật chưa được mô tả trước đây. Mục này là tài liệu tham khảo và giáo dục mô tả cách thức hoạt động của lắp ráp và không phải là hướng dẫn cho bất kỳ thủ tục lâm sàng hoặc chẩn đoán nào.
Evidence & guidelines
Tài liệu phương pháp luận chủ yếu dựa trên nghiên cứu ban đầu và tổng quan hơn là dựa trên hướng dẫn: Idury và Waterman (1995) đã giới thiệu một công thức đồ thị báo trước lắp ráp de Bruijn, Zerbino và Birney (2008) đã thiết lập lắp ráp đồ thị de Bruijn cho các đoạn đọc ngắn với Velvet, và lắp ráp shotgun toàn bộ bộ gen người (Venter et al., 2001) là một ví dụ về mô hình chồng lấp-bố cục-đồng thuận ở quy mô lớn.
History
Các trình lắp ráp ban đầu đã sử dụng các phương pháp chồng lấp-bố cục-đồng thuận rất phù hợp với các đoạn đọc tương đối dài của giải trình tự Sanger, như trong lắp ráp shotgun toàn bộ bộ gen người vào năm 2001. Sự chuyển đổi sang giải trình tự thông lượng cao với các đoạn đọc ngắn đã khiến các phương pháp đồ thị de Bruijn, được dự đoán bởi các công thức đồ thị từ giữa những năm 1990 và được hiện thực hóa trong các công cụ như Velvet (2008), trở thành mô hình chủ đạo, trong khi sự trở lại sau này của các đoạn đọc dài đã làm mới sự quan tâm đến các cách tiếp cận dựa trên chồng lấp để giải quyết các đoạn lặp.
Key figures
- Michael Waterman
- Daniel Zerbino
- Ewan Birney
- Eugene Myers
Related topics
Seminal works
- idury-1995
- zerbino-2008
- venter-2001-asm
Frequently asked questions
- Sự khác biệt giữa lắp ráp de novo và lắp ráp dựa trên tham chiếu là gì?
- Lắp ráp de novo tái tạo bộ gen chỉ từ các đoạn đọc, không sử dụng trình tự có sẵn trước đó, trong khi lắp ráp dựa trên tham chiếu căn chỉnh hoặc tạo scaffold các đoạn đọc dựa trên một bộ gen tham chiếu hiện có để hỗ trợ quá trình tái tạo.
- Tại sao các vùng lặp lại khó lắp ráp?
- Khi một đoạn lặp dài hơn các đoạn đọc bao phủ nó, thuật toán không thể biết đoạn đọc đến từ bản sao nào, tạo ra các đường dẫn mơ hồ làm phân mảnh lắp ráp thành các đoạn ngắn hơn; các đoạn đọc dài hơn giúp giải quyết các đoạn lặp này.