경로 농축 및 네트워크 분석
유전체 실험은 종종 수십 또는 수백 개의 유전자 목록으로 끝나는데, 이는 한 번에 해석하기에는 너무 많습니다. 경로 농축 분석은 더 명확한 질문을 던집니다. 즉, 주어진 유전자 목록에서 알려진 생물학적 경로 또는 과정이 우연히 예상되는 것보다 더 많이 나타나는가? 이는 유전자 목록에서 생물학적 해석으로 나아가는 표준적인 방법입니다.
Definition
경로 농축 분석은 정의된 생물학적 경로 또는 유전자 세트에 주석이 달린 유전자들이 실험에 의해 암시된 유전자들 중에서 과다하게 표현되는지 여부를 테스트하는 통계적 방법군입니다. 이는 선택된 목록 내에서(과다 표현 분석) 또는 연속적으로 순위가 매겨진 목록 전체에서(유전자 세트 농축 분석) 이루어집니다.
Scope
이 주제는 두 가지 주요 농축 방법군(선택된 유전자 목록에 대한 과다 표현 분석과 완전히 순위가 매겨진 목록에 걸친 유전자 세트 농축)과 이들이 활용하는 큐레이션된 경로 자원, 그리고 그 유효성에 영향을 미치는 통계적 함정을 다룹니다. 이는 방법론적 참고 자료이며 결과에 대한 임상적 해석을 제공하지 않습니다.
Core questions
- 주어진 유전자 목록에서 어떤 경로 또는 과정이 통계적으로 과다하게 표현되는가?
- 순위 기반 농축은 임계값 기반 과다 표현과 어떻게 다른가?
- 어떤 배경(참조) 유전자 세트를 기준으로 테스트를 평가해야 하는가?
- 다중 검정 및 길이 또는 선택 편향은 어떻게 제어되는가?
Key concepts
- 과다 표현 분석 (ORA)
- 유전자 세트 농축 분석 (GSEA)
- 유전자 세트 및 경로 데이터베이스 (KEGG, Reactome, GO 용어)
- 배경 또는 참조 유전자 세트
- 다중 검정 보정
- RNA-seq 농축에서의 선택 및 길이 편향
Mechanisms
과다 표현 분석은 이미 임계값에 의해 선택된 유전자 목록(예: 차등 발현된 것으로 명명된 유전자)을 가져와, 일반적으로 초하 기하 분포 또는 Fisher의 정확 검정을 사용하여, 배경을 고려할 때 예상보다 많은 유전자를 포함하는 경로가 있는지 묻습니다. 반면 유전자 세트 농축 분석은 전체 순위가 매겨진 유전자 목록을 사용하고, 경로 구성원들이 순위의 상단 또는 하단으로 군집화되는 경향이 있는지 테스트하여, 엄격한 임계값을 선택할 필요를 피합니다. 두 방법 모두 Gene Ontology, KEGG, Reactome와 같은 자원에서 가져온 큐레이션된 유전자 세트에 의존합니다. 유효성은 적절한 배경 선택과 테스트된 많은 경로에 대한 보정에 달려 있습니다. RNA-seq 데이터의 경우, 방법은 더 길거나 더 많이 발현되는 유전자가 유의미하게 감지되는 경향을 설명해야 합니다. 이는 보정되지 않은 농축 테스트가 생물학적 신호로 오인할 수 있는 선택 편향입니다.
Clinical relevance
경로 농축은 차등 발현 또는 변이 결과를 생물학적 과정에 대한 진술로 전환하는 해석 단계이며, 기계론적 가설을 생성하기 위해 번역 유전체학에서 널리 사용됩니다. 이는 유전자 수준 결과가 경로 수준에서 어떻게 요약되는지를 설명하며, 개별 진단 또는 치료 결정의 근거가 아닌 참조 지향을 목적으로 합니다.
History
초기 기능 해석은 목록의 유전자 중 각 주석 범주에 속하는 유전자의 수를 세었으며, 이는 DAVID와 같은 과다 표현 도구에서 공식화되었습니다. 유전자 세트 농축 분석(2005)은 문제를 전체 순위 유전자 목록을 중심으로 재구성했으며, 이는 경로 전반에 걸친 조정되고 미묘한 변화에 더 민감하다는 것이 입증되었습니다. RNA-seq가 마이크로어레이를 대체함에 따라, GOseq(2010)과 같은 방법은 시퀀싱 데이터에 특정한 길이 및 카운트 편향을 보정했으며, KEGG 및 Reactome를 포함한 큐레이션된 경로 자원은 표준 유전자 세트 입력이 되었습니다.
Debates
- 과다 표현 대 순위 기반 농축
- 과다 표현 분석은 유의성 임계값을 필요로 하므로 임계값 미만의 정보를 버리는 반면, 유전자 세트 농축은 전체 순위를 사용합니다. 각각 다른 민감도와 가정을 가지며, 선택에 따라 보고되는 경로가 달라질 수 있습니다.
- 시퀀싱 데이터에서 농축의 편향
- RNA-seq에서 더 길고 더 많이 발현되는 유전자는 유의미하다고 불릴 가능성이 높으므로, 이 선택 편향이 보정되지 않으면 순진한 농축 테스트는 실제 생물학적 이유가 아닌 긴 유전자에 대해 농축된 경로를 보고할 수 있습니다.
Key figures
- Aravind Subramanian
- Jill Mesirov
- Da Wei Huang
- Minoru Kanehisa
Related topics
Seminal works
- subramanian-2005
- huang-2009
- kanehisa-2000
- young-2010
Frequently asked questions
- 과다 표현 분석과 유전자 세트 농축 분석의 차이점은 무엇입니까?
- 과다 표현 분석은 미리 선택된 유전자 목록(예: 유의성 임계값 이상)에 대해 경로 과다 표현을 테스트하는 반면, 유전자 세트 농축 분석은 전체 순위 유전자 목록을 사용하고 경로 구성원이 순위의 극단으로 군집화되는지 여부를 묻습니다. 이는 엄격한 절단점을 피합니다.
- 배경 유전자 세트 선택이 왜 중요합니까?
- 농축은 유전자 참조 세트를 기준으로 판단됩니다. 부적절한 배경(예: 일부만 감지될 수 있는 경우 모든 유전자)을 사용하면 통계적 이유로 인해 경로가 농축되거나 고갈된 것처럼 보일 수 있습니다.
Methods for this concept
- Pathway Enrichment Analysis
- Gene Set Enrichment Analysis
- Bayesian Pathway Enrichment Analysis
- Network-based gene set enrichment analysis
- Differential pathway enrichment analysis
- Bayesian Gene Set Enrichment Analysis
- Network-based pathway enrichment analysis
- Machine learning-assisted pathway enrichment analysis