通路富集和网络分析
基因组实验通常会产生数十甚至数百个基因列表,数量庞大,难以逐一解读。通路富集分析提出了一个更精确的问题:给定这个基因列表,是否有任何已知的生物学通路或过程的代表性超出偶然预期?它是将基因列表转化为生物学解释的标准途径。
Definition
通路富集分析是一系列统计方法,用于检验在实验所涉及的基因中,被注释到特定生物学通路或基因集的基因是否过表达,这可以通过在选定列表内(过表达分析)或在连续排序列表内(基因集富集分析)进行。
Scope
本主题涵盖了两种主要的富集方法——基于选定基因列表的过表达分析和基于完整排序列表的基因集富集分析——以及它们所依赖的精选通路资源,以及影响其有效性的统计陷阱。它是一个方法学参考,不提供结果的临床解读。
Core questions
- 给定一个基因列表,哪些通路或过程在统计学上是过表达的?
- 基于排序的富集与基于阈值的过表达有何不同?
- 检验应该针对哪个背景(参考)基因集进行评估?
- 如何控制多重检验以及长度或选择偏差?
Key concepts
- 过表达分析 (ORA)
- 基因集富集分析 (GSEA)
- 基因集和通路数据库 (KEGG, Reactome, GO terms)
- 背景或参考基因集
- 多重检验校正
- RNA-seq富集中的选择和长度偏差
Mechanisms
过表达分析(Over-representation analysis)接受一个已通过阈值筛选的基因列表——例如,被判定为差异表达的基因——并通常使用超几何检验或Fisher精确检验,询问在给定背景下,是否有任何通路包含的这些基因数量超出预期。基因集富集分析(Gene set enrichment analysis)则使用完整的基因排序列表,并检验通路成员是否倾向于聚集在排序的顶部或底部,从而避免了选择硬性阈值的需要。两者都依赖于从Gene Ontology、KEGG和Reactome等资源中提取的精选基因集。有效性取决于选择合适的背景并对所检验的多个通路进行校正;对于RNA-seq数据,方法还必须考虑较长或表达量较高的基因更容易被检测为显著的趋势,这种选择偏差未经校正的富集检验可能会误认为是生物学信号。
Clinical relevance
通路富集是将差异表达或变异结果转化为生物学过程陈述的解释性步骤,它在转化基因组学中广泛用于生成机制假说。它描述了基因水平的结果如何在通路水平上进行总结,旨在作为参考导向,而非个体诊断或治疗决策的基础。
History
早期的功能解释统计了列表中有多少基因落入每个注释类别,并在DAVID等过表达工具中形式化。基因集富集分析(2005年)将问题重新定义为围绕完整的排序基因列表,这被证明对整个通路中协调、细微的变化更敏感。随着RNA-seq取代微阵列,GOseq(2010年)等方法校正了测序数据特有的长度和计数偏差,包括KEGG和Reactome在内的精选通路资源成为标准的基因集输入。
Debates
- 过表达与基于排序的富集
- 过表达分析需要一个显著性阈值,因此会丢弃低于截止值的信息,而基因集富集使用整个排序;两者具有不同的敏感性和假设,选择不同可能会改变报告的通路。
- 测序数据富集中的偏差
- 在RNA-seq中,较长和表达量较高的基因更有可能被判定为显著,因此,除非校正这种选择偏差,否则简单的富集检验可能会报告富集了长基因的通路,而非真正的生物学意义。
Key figures
- Aravind Subramanian
- Jill Mesirov
- Da Wei Huang
- Minoru Kanehisa
Related topics
Seminal works
- subramanian-2005
- huang-2009
- kanehisa-2000
- young-2010
Frequently asked questions
- 过表达分析和基因集富集分析有什么区别?
- 过表达分析检验预先选定的基因列表(例如,那些高于显著性阈值的基因)是否存在通路过表达,而基因集富集分析使用完整的基因排序列表,并询问通路成员是否聚集在排序的两端,从而避免了硬性截止。
- 为什么背景基因集的选择很重要?
- 富集是相对于一组参考基因来判断的;使用不合适的背景(例如,当只有一部分基因可以被检测到时却使用所有基因)可能会导致通路因统计原因而非生物学原因显得富集或耗竭。
Methods for this concept
- Pathway Enrichment Analysis
- Gene Set Enrichment Analysis
- Bayesian Pathway Enrichment Analysis
- Network-based gene set enrichment analysis
- Differential pathway enrichment analysis
- Bayesian Gene Set Enrichment Analysis
- Network-based pathway enrichment analysis
- Machine learning-assisted pathway enrichment analysis