Kiểm soát chất lượng và sửa lỗi trong giải trình tự
Mỗi lần chạy giải trình tự đều tạo ra các kết quả đọc base với độ tin cậy khác nhau, vì vậy kiểm soát chất lượng và sửa lỗi là các bước định lượng độ chính xác của từng base, lọc hoặc cắt bỏ dữ liệu chất lượng thấp và sửa các lỗi hệ thống trước khi các đoạn đọc được lắp ráp hoặc sử dụng để gọi biến thể. Nếu không có các bước này, các kết luận về bộ gen sau đó có thể bị sai lệch do nhiễu kỹ thuật chứ không phải do yếu tố sinh học.
Definition
Kiểm soát chất lượng trong giải trình tự là việc đánh giá và cải thiện độ tin cậy của các đoạn đọc, sử dụng điểm chất lượng từng base, cắt và lọc, cùng các phương pháp sửa lỗi để loại bỏ hoặc sửa các lỗi kỹ thuật, nhằm đảm bảo rằng việc lắp ráp và gọi biến thể phản ánh trình tự cơ bản chứ không phải lỗi đo lường.
Scope
Mục này bao gồm việc chấm điểm chất lượng từng base (Phred), các loại lỗi và sai lệch ảnh hưởng đến các đoạn đọc giải trình tự, cắt và lọc đoạn đọc, và vai trò của độ phủ dư thừa trong việc phân biệt tín hiệu thực với lỗi. Đây là một chủ đề về phương pháp luận liên quan đến độ tin cậy của dữ liệu và không cung cấp các quy trình lâm sàng hoặc phòng thí nghiệm.
Core questions
- Độ tin cậy của một kết quả đọc base riêng lẻ được định lượng như thế nào?
- Những loại lỗi và sai lệch nào ảnh hưởng đến các đoạn đọc giải trình tự?
- Việc cắt, lọc và độ phủ dư thừa làm giảm tác động của lỗi như thế nào?
Key concepts
- Điểm chất lượng Phred
- Độ chính xác của việc đọc base
- Cắt và lọc đoạn đọc
- Hồ sơ lỗi giải trình tự
- Độ phủ và giảm lỗi đồng thuận
- Cắt adapter và chất lượng
- Kiểm soát biến thể dương tính giả
Mechanisms
Các nền tảng giải trình tự gán cho mỗi kết quả đọc base một điểm chất lượng Phred, một ước tính logarit về xác suất kết quả đọc đó sai, cho phép gắn cờ các base có độ tin cậy thấp. Các công cụ kiểm soát chất lượng sau đó cắt bỏ các adapter và các đầu có chất lượng thấp, đồng thời lọc các đoạn đọc không đáng tin cậy trước khi phân tích. Vì lỗi một phần là ngẫu nhiên và một phần là có hệ thống, việc giải trình tự mỗi vị trí nhiều lần cho phép đưa ra một sự đồng thuận để các lỗi riêng lẻ bị loại bỏ, trong khi việc mô tả các hồ sơ lỗi giúp phân biệt các lỗi lặp lại với các biến thể tần số thấp thực sự. Các bước này làm giảm các dương tính giả trong việc gọi biến thể sau đó và cải thiện độ chính xác của việc lắp ráp.
Clinical relevance
Kiểm soát chất lượng và sửa lỗi quyết định liệu các phát hiện về bộ gen có phản ánh trình tự thực hay nhiễu kỹ thuật, điều này rất quan trọng ở bất cứ nơi nào giải trình tự cung cấp thông tin cho nghiên cứu hoặc diễn giải lâm sàng. Mục này là tài liệu tham khảo giáo dục về độ tin cậy của dữ liệu và không cấu thành hướng dẫn cho bất kỳ xét nghiệm hoặc quyết định lâm sàng cụ thể nào.
Evidence & guidelines
Các phương pháp này được ghi lại thông qua các bài báo về công cụ và phân tích chính chứ không phải hướng dẫn lâm sàng: Ewing et al. (1998) đã thiết lập điểm chất lượng Phred cho từng base, Bolger et al. (2014) là một công cụ cắt đoạn đọc được sử dụng rộng rãi, và Ma et al. (2019) mô tả các hồ sơ lỗi trong dữ liệu giải trình tự sâu; các bài đánh giá như Sims et al. (2014) liên hệ độ phủ với kiểm soát lỗi.
History
Việc chấm điểm chất lượng từng base được chính thức hóa bằng chương trình Phred vào năm 1998, cung cấp cho dữ liệu giải trình tự một thước đo chuẩn hóa, có thể diễn giải về độ tin cậy của kết quả đọc base, trở nên phổ biến. Khi các nền tảng thông lượng cao tạo ra khối lượng lớn các đoạn đọc, các công cụ cắt và lọc chuyên dụng đã xuất hiện vào những năm 2010, và các phân tích chi tiết về hồ sơ lỗi đã tinh chỉnh cách phân biệt các biến thể tần số thấp thực sự với các lỗi giải trình tự có hệ thống.
Key figures
- Phil Green
- Brent Ewing
- Björn Usadel
Related topics
Seminal works
- ewing-1998
- bolger-2014
- ma-2019
Frequently asked questions
- Điểm chất lượng Phred là gì?
- Đây là một thước đo logarit về xác suất ước tính rằng một kết quả đọc base không chính xác; ví dụ, điểm Phred là 30 tương ứng với khoảng 1 trên 1000 khả năng xảy ra lỗi, vì vậy điểm càng cao cho thấy kết quả đọc base càng đáng tin cậy.
- Việc giải trình tự cùng một vị trí nhiều lần làm giảm lỗi như thế nào?
- Khi một vị trí được bao phủ bởi nhiều đoạn đọc độc lập, các lỗi ngẫu nhiên trong các đoạn đọc riêng lẻ có thể bị đa số bác bỏ, vì vậy việc lấy sự đồng thuận trên các đoạn đọc sẽ cho kết quả đọc base chính xác hơn bất kỳ đoạn đọc đơn lẻ nào.