Phân tích làm giàu con đường và mạng lưới
Một thí nghiệm gen thường kết thúc với danh sách hàng chục hoặc hàng trăm gen — quá nhiều để diễn giải từng gen một. Phân tích làm giàu con đường đặt ra một câu hỏi sắc bén hơn: với danh sách gen này, liệu có bất kỳ con đường hoặc quá trình sinh học nào được biểu diễn nhiều hơn mức mong đợi một cách ngẫu nhiên không? Đây là con đường tiêu chuẩn từ danh sách gen đến diễn giải sinh học.
Definition
Phân tích làm giàu con đường là một nhóm các phương pháp thống kê kiểm tra xem liệu các gen được chú thích vào các con đường sinh học hoặc tập hợp gen đã xác định có được biểu diễn quá mức trong số các gen được ngụ ý bởi một thí nghiệm hay không, hoặc trong một danh sách được chọn (phân tích biểu diễn quá mức) hoặc trên một danh sách được xếp hạng liên tục (phân tích làm giàu tập hợp gen).
Scope
Chủ đề này bao gồm hai nhóm phương pháp làm giàu chính — phân tích biểu diễn quá mức trên danh sách gen được chọn và làm giàu tập hợp gen trên danh sách được xếp hạng đầy đủ — cùng với các tài nguyên con đường được tuyển chọn mà chúng dựa vào và các cạm bẫy thống kê ảnh hưởng đến tính hợp lệ của chúng. Đây là một tài liệu tham khảo về phương pháp luận và không cung cấp diễn giải lâm sàng về kết quả.
Core questions
- Với một danh sách gen, những con đường hoặc quá trình nào được biểu diễn quá mức về mặt thống kê?
- Làm thế nào để làm giàu dựa trên xếp hạng khác với biểu diễn quá mức dựa trên ngưỡng?
- Tập hợp gen nền (tham chiếu) nào nên được đánh giá một phép thử?
- Làm thế nào để kiểm soát các phép thử đa bội và sai lệch về độ dài hoặc chọn lọc?
Key concepts
- Phân tích biểu diễn quá mức (ORA)
- Phân tích làm giàu tập hợp gen (GSEA)
- Tập hợp gen và cơ sở dữ liệu con đường (KEGG, Reactome, thuật ngữ GO)
- Tập hợp gen nền hoặc tham chiếu
- Hiệu chỉnh phép thử đa bội
- Sai lệch chọn lọc và độ dài trong làm giàu RNA-seq
Mechanisms
Phân tích biểu diễn quá mức lấy một danh sách các gen đã được chọn theo một ngưỡng — ví dụ, các gen được gọi là biểu hiện khác biệt — và hỏi, thường bằng cách sử dụng phép thử siêu hình học hoặc phép thử chính xác của Fisher, liệu có bất kỳ con đường nào chứa nhiều gen đó hơn dự kiến so với nền. Phân tích làm giàu tập hợp gen thay vào đó sử dụng toàn bộ danh sách gen được xếp hạng và kiểm tra xem liệu các thành viên của một con đường có xu hướng tập trung về phía đầu hoặc cuối của bảng xếp hạng hay không, tránh nhu cầu chọn một ngưỡng cứng. Cả hai đều dựa vào các tập hợp gen được tuyển chọn từ các tài nguyên như Gene Ontology, KEGG và Reactome. Tính hợp lệ phụ thuộc vào việc chọn một nền thích hợp và hiệu chỉnh cho nhiều con đường được kiểm tra; đối với dữ liệu RNA-seq, các phương pháp cũng phải tính đến xu hướng các gen dài hơn hoặc biểu hiện cao hơn được phát hiện là có ý nghĩa, một sai lệch chọn lọc mà các phép thử làm giàu không được hiệu chỉnh có thể nhầm lẫn với tín hiệu sinh học.
Clinical relevance
Làm giàu con đường là bước diễn giải biến kết quả biểu hiện khác biệt hoặc biến thể thành một tuyên bố về các quá trình sinh học, và nó được sử dụng rộng rãi trong genomics dịch thuật để tạo ra các giả thuyết cơ chế. Nó mô tả cách các kết quả cấp độ gen được tóm tắt ở cấp độ con đường và được dự định làm định hướng tham khảo, không phải là cơ sở cho các quyết định chẩn đoán hoặc điều trị cá nhân.
History
Diễn giải chức năng ban đầu đếm số lượng gen từ một danh sách rơi vào mỗi danh mục chú thích, được chính thức hóa trong các công cụ biểu diễn quá mức như DAVID. Phân tích làm giàu tập hợp gen (2005) đã định hình lại vấn đề xung quanh danh sách gen được xếp hạng đầy đủ, điều này cho thấy độ nhạy cao hơn đối với những thay đổi phối hợp, tinh tế trên một con đường. Khi RNA-seq thay thế microarrays, các phương pháp như GOseq (2010) đã hiệu chỉnh các sai lệch về độ dài và số lượng cụ thể đối với dữ liệu giải trình tự, và các tài nguyên con đường được tuyển chọn bao gồm KEGG và Reactome đã trở thành đầu vào tập hợp gen tiêu chuẩn.
Debates
- Biểu diễn quá mức so với làm giàu dựa trên xếp hạng
- Phân tích biểu diễn quá mức yêu cầu một ngưỡng ý nghĩa và do đó loại bỏ thông tin dưới ngưỡng, trong khi làm giàu tập hợp gen sử dụng toàn bộ bảng xếp hạng; mỗi phương pháp có độ nhạy và giả định khác nhau, và lựa chọn có thể thay đổi các con đường được báo cáo.
- Sai lệch trong làm giàu từ dữ liệu giải trình tự
- Trong RNA-seq, các gen dài hơn và biểu hiện cao hơn có nhiều khả năng được gọi là có ý nghĩa, vì vậy các phép thử làm giàu ngây thơ có thể báo cáo các con đường được làm giàu cho các gen dài thay vì cho sinh học thực sự trừ khi sai lệch chọn lọc này được hiệu chỉnh.
Key figures
- Aravind Subramanian
- Jill Mesirov
- Da Wei Huang
- Minoru Kanehisa
Related topics
Seminal works
- subramanian-2005
- huang-2009
- kanehisa-2000
- young-2010
Frequently asked questions
- Sự khác biệt giữa phân tích biểu diễn quá mức và phân tích làm giàu tập hợp gen là gì?
- Phân tích biểu diễn quá mức kiểm tra một danh sách gen được chọn trước (ví dụ, những gen trên một ngưỡng ý nghĩa) để tìm sự biểu diễn quá mức của con đường, trong khi phân tích làm giàu tập hợp gen sử dụng toàn bộ danh sách gen được xếp hạng và hỏi liệu các thành viên của một con đường có tập trung về phía các cực của bảng xếp hạng hay không, tránh một ngưỡng cứng.
- Tại sao việc lựa chọn tập hợp gen nền lại quan trọng?
- Sự làm giàu được đánh giá tương đối so với một tập hợp gen tham chiếu; việc sử dụng một nền không phù hợp (ví dụ, tất cả các gen khi chỉ một tập hợp con có thể được phát hiện) có thể làm cho các con đường xuất hiện được làm giàu hoặc cạn kiệt vì lý do thống kê chứ không phải sinh học.
Methods for this concept
- Pathway Enrichment Analysis
- Gene Set Enrichment Analysis
- Bayesian Pathway Enrichment Analysis
- Network-based gene set enrichment analysis
- Differential pathway enrichment analysis
- Bayesian Gene Set Enrichment Analysis
- Network-based pathway enrichment analysis
- Machine learning-assisted pathway enrichment analysis