Hệ gen Ontology và Cơ sở dữ liệu sinh học
Để giải thích bộ gen ở quy mô lớn, cần có một ngôn ngữ chung, có thể đọc được bằng máy để mô tả chức năng của gen. Hệ gen Ontology cung cấp ngôn ngữ đó — một vốn từ vựng có cấu trúc về các chức năng phân tử, quá trình sinh học và vị trí tế bào — trong khi các cơ sở dữ liệu được quản lý như KEGG và Reactome cung cấp kiến thức về con đường và phản ứng để đọc kết quả bộ gen.
Definition
Hệ gen Ontology là một vốn từ vựng có cấu trúc, phân cấp, được kiểm soát mô tả các thuộc tính sản phẩm gen trên ba lĩnh vực — chức năng phân tử, quá trình sinh học và thành phần tế bào — và các cơ sở dữ liệu sinh học là các kho lưu trữ được quản lý (như KEGG, Reactome và các tài nguyên liên kết protein) lưu trữ kiến thức về chức năng, con đường và tương tác được sử dụng để chú thích và giải thích dữ liệu bộ gen.
Scope
Chủ đề này bao gồm các vốn từ vựng sinh học được kiểm soát và các cơ sở tri thức chính lưu trữ thông tin chức năng và con đường được quản lý: cấu trúc và cách sử dụng Hệ gen Ontology, cách các gen được chú thích theo các thuật ngữ ontology với mã bằng chứng, và vai trò của các cơ sở dữ liệu về con đường và tương tác. Đây là một chủ đề tham khảo và giáo dục và không cung cấp hướng dẫn lâm sàng.
Core questions
- Làm thế nào để mô tả chức năng của một sản phẩm gen một cách nhất quán, có thể tính toán được?
- Ba lĩnh vực của Hệ gen Ontology nắm bắt những gì và chúng được tổ chức như thế nào?
- Làm thế nào để chỉ ra mức độ mạnh của một chú thích, ví dụ thông qua các mã bằng chứng?
- Những cơ sở dữ liệu nào lưu giữ kiến thức về con đường, phản ứng và tương tác, và chúng khác nhau như thế nào?
Key concepts
- Vốn từ vựng được kiểm soát và ontology
- Chức năng phân tử, quá trình sinh học, thành phần tế bào
- Cấu trúc đồ thị có hướng không chu trình (DAG) của GO
- Chú thích và mã bằng chứng
- Cơ sở dữ liệu về con đường (KEGG, Reactome)
- Cơ sở dữ liệu tương tác và liên kết protein (STRING)
Mechanisms
Hệ gen Ontology tổ chức các thuật ngữ dưới dạng một đồ thị có hướng không chu trình, trong đó các thuật ngữ cụ thể kế thừa từ các thuật ngữ tổng quát hơn trên ba lĩnh vực độc lập: chức năng phân tử (hoạt động sinh hóa của sản phẩm gen), quá trình sinh học (chương trình lớn hơn mà nó đóng góp vào), và thành phần tế bào (nơi nó hoạt động). Các gen được liên kết với các thuật ngữ bằng các chú thích, mỗi chú thích được gắn thẻ bằng một mã bằng chứng ghi lại liệu sự hỗ trợ là thực nghiệm, tính toán hay do người quản lý suy luận. Các cơ sở dữ liệu bổ sung nắm bắt kiến thức mà ontology không có: KEGG và Reactome mã hóa các con đường dưới dạng mạng lưới các phản ứng và mối quan hệ, và các tài nguyên liên kết protein như STRING tổng hợp bằng chứng về các liên kết chức năng giữa các protein. Cùng nhau, các tài nguyên này cung cấp các tập hợp gen được quản lý và các chú thích tham chiếu mà các phương pháp làm giàu và mạng lưới hạ nguồn sử dụng.
Clinical relevance
Các ontology và cơ sở dữ liệu được quản lý là cơ sở hạ tầng chung giúp việc giải thích bộ gen có thể tái tạo được giữa các nghiên cứu, cung cấp vốn từ vựng và các tập hợp gen được sử dụng trong chú thích, làm giàu và phân tích mạng lưới. Chúng mô tả cách kiến thức sinh học được tổ chức để tính toán và đóng vai trò là tài nguyên tham khảo chứ không phải là cơ sở cho các quyết định chẩn đoán hoặc điều trị cá nhân.
History
Hệ gen Ontology được ra mắt vào năm 2000 bởi một tập đoàn các cơ sở dữ liệu mô hình sinh vật để thống nhất cách mô tả chức năng gen giữa các loài, và nó trở thành vốn từ vựng tiêu chuẩn thực tế cho hệ gen chức năng. Cùng năm đó, KEGG chính thức hóa kiến thức về con đường dưới dạng bản đồ có thể tính toán, và Reactome sau đó đã bổ sung một cơ sở tri thức về con đường cấp độ phản ứng được quản lý thủ công. Các cơ sở dữ liệu liên kết protein như STRING đã mở rộng việc quản lý đến các tương tác chức năng và vật lý, hoàn thành một hệ sinh thái các tài nguyên mà hầu hết các phân tích làm giàu và mạng lưới hiện nay phụ thuộc vào.
Key figures
- Michael Ashburner
- Judith Blake
- Minoru Kanehisa
- Peter D'Eustachio
Related topics
Seminal works
- ashburner-2000
- kanehisa-2000
- jassal-2020
Frequently asked questions
- Ba lĩnh vực của Hệ gen Ontology là gì?
- Chức năng phân tử (hoạt động sinh hóa của sản phẩm gen), quá trình sinh học (chương trình rộng hơn mà nó đóng góp vào), và thành phần tế bào (nơi nó hoạt động trong tế bào). Ba lĩnh vực này được tổ chức độc lập.
- Tại sao các chú thích của Hệ gen Ontology lại mang mã bằng chứng?
- Mã bằng chứng ghi lại cách một chú thích được hỗ trợ — ví dụ bằng chứng thực nghiệm so với suy luận tính toán — để người dùng có thể đánh giá mức độ đáng tin cậy của một gán gen-thuật ngữ nhất định.
Methods for this concept
- Pathway Enrichment Analysis
- Bayesian Pathway Enrichment Analysis
- Machine learning-assisted pathway enrichment analysis
- Gene Set Enrichment Analysis
- Network-based gene set enrichment analysis
- Network-based pathway enrichment analysis
- Multi-omics Pathway Enrichment Analysis
- Differential pathway enrichment analysis