هستیشناسی ژن و پایگاههای داده زیستی
تفسیر ژنومها در مقیاس وسیع نیازمند یک زبان مشترک و قابل خوانش توسط ماشین برای توصیف عملکرد ژنها است. هستیشناسی ژن (Gene Ontology) این زبان را فراهم میکند — یک واژگان ساختاریافته از عملکردهای مولکولی، فرآیندهای بیولوژیکی و مکانهای سلولی — در حالی که پایگاههای دادهای مانند KEGG و Reactome دانش مسیرها و واکنشها را که نتایج ژنومی بر اساس آنها خوانده میشوند، ارائه میدهند.
Definition
هستیشناسی ژن (Gene Ontology) یک واژگان کنترلشده، سلسلهمراتبی و ساختاریافته است که ویژگیهای محصولات ژنی را در سه حوزه — عملکرد مولکولی، فرآیند بیولوژیکی و جزء سلولی — توصیف میکند و پایگاههای داده زیستی مخازن سازمانیافتهای (مانند KEGG، Reactome و منابع مرتبط با پروتئین) هستند که دانش عملکردی، مسیرها و تعاملات را برای حاشیهنویسی و تفسیر دادههای ژنومی ذخیره میکنند.
Scope
این موضوع به واژگان کنترلشده زیستی و پایگاههای دانش اصلی که اطلاعات عملکردی و مسیرهای بیولوژیکی را ذخیره میکنند، میپردازد: ساختار و کاربرد هستیشناسی ژن، نحوه حاشیهنویسی ژنها به اصطلاحات هستیشناسی با کدهای شواهد، و نقش پایگاههای داده مسیر و تعامل. این یک موضوع مرجع و آموزشی است و راهنمایی بالینی ارائه نمیدهد.
Core questions
- چگونه میتوان عملکرد یک محصول ژنی را به روشی سازگار و قابل محاسبه توصیف کرد؟
- سه حوزه هستیشناسی ژن چه چیزی را پوشش میدهند و چگونه سازماندهی شدهاند؟
- قدرت یک حاشیهنویسی، به عنوان مثال از طریق کدهای شواهد، چگونه نشان داده میشود؟
- کدام پایگاههای داده دانش مسیر، واکنش و تعامل را نگهداری میکنند و چه تفاوتی با یکدیگر دارند؟
Key concepts
- واژگان کنترلشده و هستیشناسی
- عملکرد مولکولی، فرآیند بیولوژیکی، جزء سلولی
- ساختار گراف جهتدار غیرمدور (DAG) هستیشناسی ژن (GO)
- حاشیهنویسی و کدهای شواهد
- پایگاههای داده مسیر (KEGG, Reactome)
- پایگاههای داده تعامل و ارتباط پروتئین (STRING)
Mechanisms
هستیشناسی ژن اصطلاحات را به صورت یک گراف جهتدار غیرمدور (directed acyclic graph) سازماندهی میکند که در آن اصطلاحات خاصتر از اصطلاحات عمومیتر در سه حوزه مستقل به ارث میبرند: عملکرد مولکولی (فعالیت بیوشیمیایی یک محصول ژنی)، فرآیند بیولوژیکی (برنامه بزرگتری که محصول ژنی در آن مشارکت دارد) و جزء سلولی (محل عمل آن). ژنها از طریق حاشیهنویسیها به اصطلاحات مرتبط میشوند که هر یک با یک کد شواهد برچسبگذاری شدهاند و نشان میدهند که پشتیبانی از آن حاشیهنویسی تجربی، محاسباتی یا توسط متخصص (curator) است. پایگاههای داده مکمل، دانشی را که هستیشناسی پوشش نمیدهد، ثبت میکنند: KEGG و Reactome مسیرها را به عنوان شبکههایی از واکنشها و روابط کدگذاری میکنند، و منابع مرتبط با پروتئین مانند STRING شواهد مربوط به پیوندهای عملکردی بین پروتئینها را جمعآوری میکنند. این منابع در کنار هم، مجموعههای ژنی سازمانیافته و حاشیهنویسیهای مرجع را فراهم میکنند که توسط روشهای غنیسازی و تحلیل شبکه در مراحل بعدی استفاده میشوند.
Clinical relevance
هستیشناسیها و پایگاههای داده سازمانیافته، زیرساخت مشترکی هستند که تفسیر ژنومی را در مطالعات مختلف قابل بازتولید میسازند و واژگان و مجموعههای ژنی مورد استفاده در حاشیهنویسی، غنیسازی و تحلیل شبکه را فراهم میکنند. آنها نحوه سازماندهی دانش بیولوژیکی برای محاسبات را توصیف میکنند و به عنوان منابع مرجع عمل میکنند، نه به عنوان مبنایی برای تصمیمگیریهای تشخیصی یا درمانی فردی.
History
هستیشناسی ژن در سال ۲۰۰۰ توسط کنسرسیومی از پایگاههای داده ارگانیسمهای مدل راهاندازی شد تا نحوه توصیف عملکرد ژنها را در گونههای مختلف یکپارچه کند و به واژگان استاندارد دوفاکتو برای ژنومیک عملکردی تبدیل شد. در همان سال، KEGG دانش مسیرها را به عنوان نقشههای قابل محاسبه رسمی کرد، و Reactome بعدها یک پایگاه دانش مسیر در سطح واکنش را که به صورت دستی سازمانیافته بود، اضافه کرد. پایگاههای داده مرتبط با پروتئین مانند STRING سازماندهی را به تعاملات عملکردی و فیزیکی گسترش دادند و اکوسیستمی از منابع را تکمیل کردند که بیشتر تحلیلهای غنیسازی و شبکه اکنون به آنها وابسته هستند.
Key figures
- Michael Ashburner
- Judith Blake
- Minoru Kanehisa
- Peter D'Eustachio
Related topics
Seminal works
- ashburner-2000
- kanehisa-2000
- jassal-2020
Frequently asked questions
- سه حوزه هستیشناسی ژن کدامند؟
- عملکرد مولکولی (فعالیت بیوشیمیایی یک محصول ژنی)، فرآیند بیولوژیکی (برنامه گستردهتری که در آن مشارکت دارد) و جزء سلولی (محل عمل آن در سلول). این سه حوزه به طور مستقل سازماندهی شدهاند.
- چرا حاشیهنویسیهای هستیشناسی ژن دارای کدهای شواهد هستند؟
- کدهای شواهد نحوه پشتیبانی یک حاشیهنویسی را ثبت میکنند — به عنوان مثال شواهد تجربی در مقابل استنتاج محاسباتی — تا کاربران بتوانند قابلیت اطمینان یک انتساب ژن به اصطلاح خاص را ارزیابی کنند.
Methods for this concept
- Pathway Enrichment Analysis
- Bayesian Pathway Enrichment Analysis
- Machine learning-assisted pathway enrichment analysis
- Gene Set Enrichment Analysis
- Network-based gene set enrichment analysis
- Network-based pathway enrichment analysis
- Multi-omics Pathway Enrichment Analysis
- Differential pathway enrichment analysis