إثراء المسارات وتحليل الشبكات
غالبًا ما تنتهي التجربة الجينومية بقائمة تضم عشرات أو مئات الجينات — وهو عدد كبير جدًا لتفسيرها جينًا تلو الآخر. يطرح تحليل إثراء المسارات سؤالًا أكثر دقة: بالنظر إلى قائمة الجينات هذه، هل توجد أي مسارات أو عمليات بيولوجية معروفة ممثلة بأكثر مما هو متوقع بالصدفة؟ إنه المسار القياسي للانتقال من قائمة الجينات إلى تفسير بيولوجي.
Definition
تحليل إثراء المسارات هو مجموعة من الأساليب الإحصائية التي تختبر ما إذا كانت الجينات المحددة لمسارات بيولوجية أو مجموعات جينية معينة ممثلة بشكل زائد بين الجينات المتضمنة في تجربة ما، إما ضمن قائمة مختارة (تحليل التمثيل الزائد) أو عبر قائمة مرتبة بشكل مستمر (تحليل إثراء مجموعات الجينات).
Scope
يغطي هذا الموضوع الفئتين الرئيسيتين لطرق الإثراء — تحليل التمثيل الزائد على قائمة جينات مختارة وإثراء مجموعات الجينات عبر قائمة مرتبة بالكامل — بالإضافة إلى موارد المسارات المنسقة التي تعتمد عليها والمزالق الإحصائية التي تؤثر على صلاحيتها. إنه مرجع منهجي ولا يقدم تفسيرًا سريريًا للنتائج.
Core questions
- بالنظر إلى قائمة من الجينات، ما هي المسارات أو العمليات الممثلة إحصائيًا بشكل زائد؟
- كيف يختلف الإثراء القائم على الترتيب عن التمثيل الزائد القائم على العتبة؟
- ما هي مجموعة الجينات الخلفية (المرجعية) التي يجب تقييم الاختبار مقابلها؟
- كيف يتم التحكم في الاختبارات المتعددة وتحيزات الطول أو الاختيار؟
Key concepts
- تحليل التمثيل الزائد (ORA)
- تحليل إثراء مجموعات الجينات (GSEA)
- مجموعات الجينات وقواعد بيانات المسارات (KEGG, Reactome, GO terms)
- مجموعة الجينات الخلفية أو المرجعية
- تصحيح الاختبارات المتعددة
- تحيز الاختيار والطول في إثراء RNA-seq
Mechanisms
يأخذ تحليل التمثيل الزائد قائمة من الجينات المختارة بالفعل بناءً على عتبة معينة — على سبيل المثال، الجينات التي يُقال إنها معبر عنها تفاضليًا — ويسأل، عادةً باستخدام اختبار فوق الهندسي (hypergeometric) أو اختبار فيشر الدقيق (Fisher's exact test)، ما إذا كان أي مسار يحتوي على عدد أكبر من تلك الجينات مما هو متوقع بالنظر إلى الخلفية. بدلاً من ذلك، يستخدم تحليل إثراء مجموعات الجينات القائمة الكاملة المرتبة للجينات ويختبر ما إذا كانت أعضاء المسار تميل إلى التجمع نحو أعلى أو أسفل الترتيب، متجنبًا الحاجة إلى اختيار عتبة صارمة. يعتمد كلاهما على مجموعات جينية منسقة مستمدة من موارد مثل علم الوجود الجيني (Gene Ontology) وKEGG وReactome. تعتمد الصلاحية على اختيار خلفية مناسبة وتصحيح المسارات العديدة التي تم اختبارها؛ بالنسبة لبيانات تسلسل الحمض النووي الريبوزي (RNA-seq)، يجب أن تأخذ الطرق في الاعتبار ميل الجينات الأطول أو الأكثر تعبيرًا إلى أن يتم اكتشافها على أنها مهمة، وهو تحيز في الاختيار يمكن أن تخطئ اختبارات الإثراء غير المصححة في اعتباره إشارة بيولوجية.
Clinical relevance
إثراء المسارات هو الخطوة التفسيرية التي تحول نتيجة التعبير التفاضلي أو المتغير إلى بيان حول العمليات البيولوجية، ويستخدم على نطاق واسع في الجينوميات الانتقالية لتوليد فرضيات ميكانيكية. يصف كيف يتم تلخيص النتائج على مستوى الجين على مستوى المسار ويهدف إلى التوجيه المرجعي، وليس كأساس لقرارات التشخيص أو العلاج الفردية.
History
حسب التفسير الوظيفي المبكر عدد الجينات من قائمة ما التي تقع ضمن كل فئة من فئات التحديد، وتم إضفاء الطابع الرسمي عليها في أدوات التمثيل الزائد مثل DAVID. أعاد تحليل إثراء مجموعات الجينات (2005) صياغة المشكلة حول قائمة الجينات المرتبة بالكامل، والتي أثبتت أنها أكثر حساسية للتغيرات المنسقة والدقيقة عبر المسار. ومع حلول تسلسل الحمض النووي الريبوزي (RNA-seq) محل المصفوفات الدقيقة (microarrays)، صححت طرق مثل GOseq (2010) تحيزات الطول والعدد الخاصة ببيانات التسلسل، وأصبحت موارد المسارات المنسقة بما في ذلك KEGG وReactome هي المدخلات القياسية لمجموعات الجينات.
Debates
- التمثيل الزائد مقابل الإثراء القائم على الترتيب
- يتطلب تحليل التمثيل الزائد عتبة دلالة وبالتالي يتجاهل المعلومات الأقل من الحد الأدنى، بينما يستخدم إثراء مجموعات الجينات الترتيب بأكمله؛ لكل منهما حساسية وافتراضات مختلفة، ويمكن أن يغير الاختيار المسارات التي يتم الإبلاغ عنها.
- التحيز في الإثراء من بيانات التسلسل
- في تسلسل الحمض النووي الريبوزي (RNA-seq)، من المرجح أن يتم اعتبار الجينات الأطول والأكثر تعبيرًا ذات دلالة، لذا يمكن أن تشير اختبارات الإثراء الساذجة إلى مسارات غنية بالجينات الطويلة بدلاً من البيولوجيا الحقيقية ما لم يتم تصحيح تحيز الاختيار هذا.
Key figures
- Aravind Subramanian
- Jill Mesirov
- Da Wei Huang
- Minoru Kanehisa
Related topics
Seminal works
- subramanian-2005
- huang-2009
- kanehisa-2000
- young-2010
Frequently asked questions
- ما الفرق بين تحليل التمثيل الزائد وتحليل إثراء مجموعات الجينات؟
- يختبر تحليل التمثيل الزائد قائمة محددة مسبقًا من الجينات (على سبيل المثال، تلك التي تتجاوز عتبة الدلالة) للتمثيل الزائد للمسار، بينما يستخدم تحليل إثراء مجموعات الجينات القائمة الكاملة المرتبة للجينات ويسأل عما إذا كانت أعضاء المسار تتجمع نحو أطراف الترتيب، متجنبًا حدًا قاطعًا.
- لماذا يهم اختيار مجموعة الجينات الخلفية؟
- يتم الحكم على الإثراء بالنسبة لمجموعة مرجعية من الجينات؛ يمكن أن يؤدي استخدام خلفية غير مناسبة (على سبيل المثال، جميع الجينات عندما لا يمكن اكتشاف سوى مجموعة فرعية) إلى ظهور المسارات غنية أو مستنفدة لأسباب إحصائية بدلاً من أسباب بيولوجية.
Methods for this concept
- Pathway Enrichment Analysis
- Gene Set Enrichment Analysis
- Bayesian Pathway Enrichment Analysis
- Network-based gene set enrichment analysis
- Differential pathway enrichment analysis
- Bayesian Gene Set Enrichment Analysis
- Network-based pathway enrichment analysis
- Machine learning-assisted pathway enrichment analysis