Gen Ontolojisi ve Biyolojik Veritabanları
Genomların büyük ölçekte yorumlanması, genlerin ne iş yaptığını açıklayan ortak, makine tarafından okunabilir bir dil gerektirmektedir. Gen Ontolojisi (Gene Ontology), moleküler işlevler, biyolojik süreçler ve hücresel konumlar için yapılandırılmış bir kelime dağarcığı sunarken; KEGG ve Reactome gibi derlenmiş veritabanları, genomik sonuçların yorumlandığı yolak (pathway) ve reaksiyon bilgisini sağlamaktadır.
Tanım
Gen Ontolojisi, moleküler işlev, biyolojik süreç ve hücresel bileşen olmak üzere üç alan boyunca gen ürünlerinin özelliklerini tanımlayan yapılandırılmış, hiyerarşik kontrollü bir kelime dağarcığıdır. Biyolojik veritabanları ise (KEGG, Reactome ve protein-ilişkilendirme kaynakları gibi) genomik verileri açıklamak ve yorumlamak için kullanılan işlevsel, yolak ve etkileşim bilgilerini depolayan derlenmiş depolardır.
Kapsam
Bu konu, kontrollü biyolojik kelime dağarcıklarını ve derlenmiş işlevsel ve yolak bilgilerini depolayan başlıca bilgi tabanlarını kapsamaktadır: Gen Ontolojisi'nin yapısı ve kullanımı, genlerin kanıt kodları (evidence codes) ile ontoloji terimlerine nasıl açıklama (annotate) eklendiği ve yolak ile etkileşim veritabanlarının rolü ele alınmaktadır. Bu, bir referans ve eğitim konusu olup klinik rehberlik sağlamamaktadır.
Temel sorular
- Bir gen ürününün işlevi tutarlı, hesaplanabilir bir şekilde nasıl tanımlanabilir?
- Üç Gen Ontolojisi alanı neyi kapsamaktadır ve nasıl organize edilmektedir?
- Bir açıklamanın gücü, örneğin kanıt kodları aracılığıyla nasıl belirtilmektedir?
- Hangi veritabanları yolak, reaksiyon ve etkileşim bilgisini barındırmaktadır ve bunlar nasıl farklılık göstermektedir?
Anahtar kavramlar
- Kontrollü kelime dağarcığı ve ontoloji
- Moleküler işlev, biyolojik süreç, hücresel bileşen
- GO'nun yönlendirilmiş döngüsel olmayan grafik (DAG) yapısı
- Açıklama (Annotation) ve kanıt kodları (evidence codes)
- Yolak veritabanları (KEGG, Reactome)
- Protein etkileşimi ve ilişkilendirme veritabanları (STRING)
Mekanizmalar
Gen Ontolojisi, terimleri yönlendirilmiş döngüsel olmayan bir grafik (directed acyclic graph) olarak düzenlemektedir; bu grafikte belirli terimler, üç bağımsız alan boyunca daha genel olanlardan miras almaktadır: moleküler işlev (bir gen ürününün biyokimyasal aktivitesi), biyolojik süreç (katkıda bulunduğu daha geniş program) ve hücresel bileşen (etki ettiği yer). Genler, açıklamalar (annotations) aracılığıyla terimlere bağlanmaktadır; her açıklama, desteğin deneysel, hesaplamalı veya küratör tarafından çıkarılmış olup olmadığını kaydeden bir kanıt kodu (evidence code) ile etiketlenmektedir. Tamamlayıcı veritabanları, ontolojinin kapsamadığı bilgileri yakalamaktadır: KEGG ve Reactome, yolakları reaksiyon ve ilişki ağları olarak kodlarken, STRING gibi protein-ilişkilendirme kaynakları, proteinler arasındaki işlevsel bağlantılara dair kanıtları bir araya getirmektedir. Bu kaynaklar birlikte, aşağı akış zenginleştirme ve ağ yöntemlerinin kullandığı derlenmiş gen setlerini ve referans açıklamalarını sağlamaktadır.
Klinik önem
Ontolojiler ve derlenmiş veritabanları, genomik yorumlamayı çalışmalar arasında tekrarlanabilir kılan, açıklama, zenginleştirme ve ağ analizinde kullanılan kelime dağarcığını ve gen setlerini sağlayan ortak altyapıdır. Biyolojik bilginin hesaplama için nasıl organize edildiğini tanımlamakta ve bireysel tanı veya tedavi kararları için bir temel olmaktan ziyade referans kaynakları olarak hizmet etmektedirler.
Tarihçe
Gen Ontolojisi, gen işlevinin türler arasında nasıl tanımlandığını birleştirmek amacıyla 2000 yılında model organizma veritabanları konsorsiyumu tarafından başlatılmıştır ve işlevsel genomik için fiili standart kelime dağarcığı haline gelmiştir. Aynı yıl KEGG, yolak bilgisini hesaplanabilir haritalar olarak resmileştirmiş ve Reactome daha sonra manuel olarak derlenmiş, reaksiyon düzeyinde bir yolak bilgi tabanı eklemiştir. STRING gibi protein-ilişkilendirme veritabanları, derlemeyi işlevsel ve fiziksel etkileşimlere genişleterek, çoğu zenginleştirme ve ağ analizinin artık bağlı olduğu bir kaynak ekosistemini tamamlamıştır.
Öne çıkan isimler
- Michael Ashburner
- Judith Blake
- Minoru Kanehisa
- Peter D'Eustachio
İlgili konular
Temel eserler
- ashburner-2000
- kanehisa-2000
- jassal-2020
Sıkça sorulan sorular
- Gen Ontolojisi'nin üç alanı nelerdir?
- Moleküler işlev (bir gen ürününün biyokimyasal aktivitesi), biyolojik süreç (katkıda bulunduğu daha geniş program) ve hücresel bileşen (hücrede etki ettiği yer). Bu üç alan bağımsız olarak organize edilmektedir.
- Gen Ontolojisi açıklamaları neden kanıt kodları taşımaktadır?
- Kanıt kodları, bir açıklamanın nasıl desteklendiğini (örneğin deneysel kanıt ile hesaplamalı çıkarım arasındaki farkı) kaydetmektedir, böylece kullanıcılar belirli bir gen-terim atamasının ne kadar güvenilir olduğunu değerlendirebilmektedir.
Bu kavram için yöntemler
- Pathway Enrichment Analysis
- Bayesian Pathway Enrichment Analysis
- Machine learning-assisted pathway enrichment analysis
- Gene Set Enrichment Analysis
- Network-based gene set enrichment analysis
- Network-based pathway enrichment analysis
- Multi-omics Pathway Enrichment Analysis
- Differential pathway enrichment analysis