Thiết kế, Thực hiện và Phương pháp Thống kê GWAS
Thiết kế và phân tích một nghiên cứu liên kết trên toàn bộ hệ gen (GWAS) là một quy trình có kỷ luật: tập hợp các trường hợp và nhóm chứng được định kiểu hình tốt (hoặc một đoàn hệ có đặc điểm định lượng), định kiểu gen và ước tính các biến thể trên toàn bộ hệ gen, làm sạch dữ liệu thông qua kiểm soát chất lượng nghiêm ngặt, kiểm tra từng biến thể về mối liên kết trong khi điều chỉnh theo nguồn gốc tổ tiên, và đánh giá các tín hiệu dựa trên ngưỡng ý nghĩa trên toàn bộ hệ gen trước khi tìm kiếm sự tái lập. Mỗi bước tồn tại để ngăn chặn số lượng lớn các phép kiểm định thống kê tạo ra những phát hiện sai lệch.
Definition
Thiết kế và phân tích GWAS là tập hợp các lựa chọn thiết kế nghiên cứu và các quy trình thống kê mà qua đó các mối liên kết biến thể-kiểu hình được kiểm tra trên toàn bộ hệ gen, các dương tính giả được kiểm soát trên hàng triệu phép so sánh, và các tín hiệu đáng tin cậy được phân biệt với các hiện vật của việc định kiểu gen, mối quan hệ huyết thống, hoặc nguồn gốc tổ tiên.
Scope
Chủ đề này bao gồm xương sống phương pháp luận của GWAS: định nghĩa mẫu và kiểu hình, định kiểu gen và ước tính, các bộ lọc kiểm soát chất lượng, mô hình liên kết đơn điểm đánh dấu, hiệu chỉnh kiểm định đa biến và ý nghĩa trên toàn bộ hệ gen, các chẩn đoán như yếu tố lạm phát hệ gen và biểu đồ QQ/Manhattan, và sự tái lập. Đây là một tài liệu tham khảo về phương pháp chứ không phải là một quy trình để xét nghiệm di truyền lâm sàng.
Core questions
- Kích thước mẫu và định nghĩa kiểu hình nào mang lại sức mạnh đầy đủ để phát hiện các biến thể có hiệu ứng nhỏ?
- Những bộ lọc kiểm soát chất lượng nào loại bỏ các biến thể và mẫu không đáng tin cậy trước khi kiểm tra?
- Mô hình hồi quy nào được sử dụng cho một phép kiểm định liên kết đơn điểm đánh dấu, và nguồn gốc tổ tiên được điều chỉnh như thế nào?
- Ngưỡng ý nghĩa nào kiểm soát các dương tính giả trên toàn bộ hệ gen, và tại sao nó gần 5 x 10^-8?
- Làm thế nào để phân biệt một tín hiệu thực sự với sự lạm phát hệ gen, và tại sao cần phải tái lập?
Key concepts
- Thiết kế trường hợp-chứng và đặc điểm định lượng
- Gọi kiểu gen và ước tính
- Kiểm soát chất lượng (tỷ lệ gọi, MAF, bộ lọc cân bằng Hardy-Weinberg)
- Kiểm định liên kết đơn điểm đánh dấu (hồi quy logistic hoặc tuyến tính)
- Mô hình di truyền cộng gộp và hiệu ứng trên mỗi alen (tỷ số chênh hoặc beta)
- Ngưỡng ý nghĩa trên toàn bộ hệ gen (~5 x 10^-8)
- Yếu tố lạm phát hệ gen (lambda) và biểu đồ QQ
- Biểu đồ Manhattan và sự tái lập
Mechanisms
Mỗi biến thể thường được kiểm tra bằng một mô hình hồi quy – logistic cho tình trạng bệnh nhị phân, tuyến tính cho các đặc điểm định lượng – trong đó biến thể được mã hóa theo mô hình cộng gộp (trên mỗi alen) và các thành phần chính của nguồn gốc tổ tiên cùng với các biến đồng biến khác được đưa vào để kiểm soát nhiễu. Kết quả trên mỗi biến thể là một ước tính hiệu ứng (tỷ số chênh hoặc beta) và một giá trị p. Bởi vì hàng trăm nghìn đến hàng triệu biến thể phổ biến phần lớn độc lập được kiểm tra, ý nghĩa được đánh giá dựa trên ngưỡng trên toàn bộ hệ gen khoảng 5 x 10^-8, được suy ra từ hiệu chỉnh kiểu Bonferroni cho số lượng hiệu quả các phép kiểm định độc lập. Trước khi kiểm tra, kiểm soát chất lượng loại bỏ các mẫu và biến thể có tỷ lệ gọi thấp, độ lệch cực đoan so với cân bằng Hardy-Weinberg trong nhóm chứng, tần số alen phụ rất thấp, hoặc bằng chứng về mối quan hệ huyết thống và các ngoại lệ dân số. Yếu tố lạm phát hệ gen và biểu đồ QQ báo hiệu nhiễu còn sót lại; biểu đồ Manhattan hiển thị các tín hiệu trên toàn bộ hệ gen; và sự tái lập độc lập bảo vệ chống lại các hiện vật đặc trưng của thiết kế. Các phần mềm như PLINK đã chuẩn hóa các bước này.
Clinical relevance
Hiểu biết về thiết kế và phân tích GWAS là một phần của việc đánh giá bằng chứng di truyền được trích dẫn trong nghiên cứu bệnh tật và trong việc xây dựng các điểm đa gen. Chủ đề này giải thích cách các mối liên kết được tạo ra và xác nhận và mang tính mô tả; nó không phải là một quy trình để chẩn đoán di truyền cá nhân hoặc để ra quyết định lâm sàng.
Evidence & guidelines
Các quy ước phân tích đã được củng cố thông qua kinh nghiệm của các hiệp hội và các đánh giá phương pháp luận hơn là các hướng dẫn lâm sàng chính thức. Hiệp hội Kiểm soát Trường hợp Wellcome Trust (2007) đã chứng minh thiết kế kiểm soát chung và kiểm soát chất lượng nghiêm ngặt ở quy mô lớn; PLINK (Purcell et al., 2007) trở thành một bộ công cụ phân tích tiêu chuẩn; và các đánh giá của McCarthy et al. (2008) và Bush và Moore (2012) đã đưa ra những kỳ vọng được chấp nhận rộng rãi về sức mạnh, kiểm soát chất lượng, ngưỡng ý nghĩa và sự tái lập.
History
Quy trình này đã được hình thành rõ ràng với các nghiên cứu quét toàn bộ hệ gen lớn đầu tiên vào giữa những năm 2000, khi các mảng giá cả phải chăng và ước tính dựa trên HapMap đã làm cho việc kiểm tra toàn bộ hệ gen trở nên khả thi. Nghiên cứu của Hiệp hội Kiểm soát Trường hợp Wellcome Trust năm 2007 đã tạo ra những tiền lệ có ảnh hưởng cho việc kiểm soát chung, kiểm soát chất lượng và ngưỡng 5 x 10^-8, trong khi việc phát hành PLINK đã cung cấp cho cộng đồng một bộ công cụ phân tích chung. Các đánh giá phương pháp luận sau đó đã mã hóa các thực hành tốt nhất, và bộ công cụ phân tích sau này đã mở rộng sang các mô hình hỗn hợp, các phương pháp thống kê tóm tắt và các đoàn hệ ngân hàng sinh học rất lớn.
Debates
- Liệu ngưỡng cố định 5 x 10^-8 có phù hợp trên các thiết kế nghiên cứu và nguồn gốc tổ tiên khác nhau không?
- Ngưỡng thông thường trên toàn bộ hệ gen được hiệu chỉnh cho sự biến đổi phổ biến trong các mẫu có nguồn gốc tổ tiên châu Âu; việc giải trình tự dày đặc hơn, các biến thể hiếm hơn và các nguồn gốc tổ tiên khác ngụ ý một số lượng hiệu quả các phép kiểm định độc lập khác nhau, vì vậy việc ngưỡng có nên đặc trưng cho thiết kế hay không vẫn đang được tranh luận.
Key figures
- Shaun Purcell
- Mark McCarthy
- Jason Moore
- William Bush
- Peter Visscher
Related topics
Seminal works
- wtccc-2007
- purcell-2007
- mccarthy-2008
Frequently asked questions
- Tại sao ngưỡng ý nghĩa GWAS được đặt gần 5 x 10^-8?
- Nó xấp xỉ một hiệu chỉnh Bonferroni cho khoảng một triệu biến thể phổ biến độc lập hiệu quả trong hệ gen người, giữ tỷ lệ dương tính giả trên toàn bộ hệ gen gần mức 0,05 thông thường.
- Tại sao một phát hiện GWAS phải được tái lập?
- Một nghiên cứu đơn lẻ có thể tạo ra các mối liên kết giả từ các vấn đề kiểm soát chất lượng tinh vi, nhiễu còn sót lại, hoặc sự ngẫu nhiên ở rìa ý nghĩa; sự tái lập độc lập trong một mẫu riêng biệt là kiểm tra tiêu chuẩn để xác nhận rằng một tín hiệu là có thật.