過剰表現解析と遺伝子セット濃縮解析の違いは何ですか？

過剰表現解析は、事前に選択された遺伝子のリスト（例えば、有意性閾値を超えたもの）についてパスウェイの過剰表現をテストするのに対し、遺伝子セット濃縮解析は、遺伝子のランク付けされたリスト全体を使用し、パスウェイのメンバーがランキングの両極端に集中するかどうかを問い、厳密なカットオフを回避します。

背景遺伝子セットの選択が重要なのはなぜですか？

濃縮は遺伝子の参照セットに対して判断されます。不適切な背景（例えば、一部しか検出できなかったにもかかわらず、すべての遺伝子を使用する）を使用すると、統計的な理由でパスウェイが濃縮または枯渇しているように見える可能性があります。

パスウェイ濃縮とネットワーク解析

ゲノム実験は、しばしば数十から数百の遺伝子リストで終わりますが、これらを一つずつ解釈するには多すぎます。パスウェイ濃縮解析は、より鋭い問いを投げかけます。すなわち、この遺伝子リストが与えられたとき、既知の生物学的パスウェイやプロセスが偶然に期待されるよりも多く表現されているか、という問いです。これは、遺伝子リストから生物学的解釈へと至る標準的な経路です。

PaperMindでテーマを探す近日公開Find papers & topics

Tools & resources

スライドをダウンロード

Learn & explore

動画近日公開

Definition

パスウェイ濃縮解析は、定義された生物学的パスウェイまたは遺伝子セットにアノテーションされた遺伝子が、実験によって示唆された遺伝子群の中で、選択されたリスト内（過剰表現解析）または連続的にランク付けされたリスト全体（遺伝子セット濃縮解析）のいずれかで過剰に表現されているかどうかをテストする統計的手法群です。

Scope

このトピックでは、濃縮解析の主要な2つのファミリー（選択された遺伝子リストに対する過剰表現解析と、完全にランク付けされたリスト全体にわたる遺伝子セット濃縮解析）と、それらが依拠するキュレーションされたパスウェイリソース、およびその妥当性に影響を与える統計的落とし穴について扱います。これは方法論的なリファレンスであり、結果の臨床的解釈を提供するものではありません。

Core questions

遺伝子リストが与えられた場合、どのパスウェイまたはプロセスが統計的に過剰に表現されていますか？
ランキングベースの濃縮は、閾値ベースの過剰表現とどのように異なりますか？
どの背景（参照）遺伝子セットに対してテストを評価すべきですか？
多重検定と長さまたは選択バイアスはどのように制御されますか？

Key concepts

過剰表現解析 (ORA)
遺伝子セット濃縮解析 (GSEA)
遺伝子セットとパスウェイデータベース (KEGG, Reactome, GO terms)
背景または参照遺伝子セット
多重検定補正
RNA-seq濃縮における選択および長さバイアス

Mechanisms

過剰表現解析は、すでに閾値によって選択された遺伝子のリスト（例えば、差次的発現とされた遺伝子）を取り、通常は超幾何分布検定またはフィッシャーの正確確率検定を用いて、背景を考慮した上で、いずれかのパスウェイが期待されるよりも多くのそれらの遺伝子を含んでいるかどうかを問います。一方、遺伝子セット濃縮解析は、遺伝子のランク付けされたリスト全体を使用し、パスウェイのメンバーがランキングの上位または下位に集中する傾向があるかどうかをテストすることで、厳密な閾値を選択する必要性を回避します。どちらの手法も、Gene Ontology、KEGG、Reactomeなどのリソースから得られたキュレーションされた遺伝子セットに依存しています。妥当性は、適切な背景の選択と、テストされた多くのパスウェイに対する補正に依存します。RNA-seqデータの場合、より長く、より高く発現する遺伝子が有意として検出されやすい傾向（選択バイアス）を考慮に入れる必要があり、補正されていない濃縮テストでは、これを生物学的シグナルと誤解する可能性があります。

Clinical relevance

パスウェイ濃縮は、差次的発現や変異の結果を生物学的プロセスに関する記述へと変換する解釈ステップであり、メカニズム仮説を生成するためにトランスレーショナルゲノミクスで広く使用されています。これは、遺伝子レベルの結果がパスウェイレベルでどのように要約されるかを記述するものであり、個別の診断や治療の決定の基礎としてではなく、参照の方向付けを目的としています。

History

初期の機能的解釈では、リスト中の各アノテーションカテゴリに属する遺伝子の数を数え、DAVIDなどの過剰表現ツールで形式化されました。遺伝子セット濃縮解析（2005年）は、問題全体をランク付けされた遺伝子リスト全体を中心に再構築し、パスウェイ全体にわたる協調的で微妙な変化に対してより感度が高いことが証明されました。RNA-seqがマイクロアレイに取って代わるにつれて、GOseq（2010年）などの手法は、シーケンスデータに特有の長さとカウントのバイアスを補正し、KEGGやReactomeを含むキュレーションされたパスウェイリソースが標準的な遺伝子セット入力となりました。

Debates

過剰表現とランキングベースの濃縮: 過剰表現解析は有意性閾値を必要とするため、カットオフ以下の情報を破棄しますが、遺伝子セット濃縮はランキング全体を使用します。それぞれ異なる感度と仮定を持ち、選択によって報告されるパスウェイが変わる可能性があります。
シーケンスデータからの濃縮におけるバイアス: RNA-seqでは、より長く、より高く発現する遺伝子ほど有意と判断されやすいため、この選択バイアスが補正されない限り、ナイーブな濃縮テストは、真の生物学的理由ではなく、長い遺伝子に富むパスウェイを報告する可能性があります。

Key figures

Aravind Subramanian
Jill Mesirov
Da Wei Huang
Minoru Kanehisa

Seminal works

subramanian-2005
huang-2009
kanehisa-2000
young-2010

Frequently asked questions

過剰表現解析と遺伝子セット濃縮解析の違いは何ですか？: 過剰表現解析は、事前に選択された遺伝子のリスト（例えば、有意性閾値を超えたもの）についてパスウェイの過剰表現をテストするのに対し、遺伝子セット濃縮解析は、遺伝子のランク付けされたリスト全体を使用し、パスウェイのメンバーがランキングの両極端に集中するかどうかを問い、厳密なカットオフを回避します。
背景遺伝子セットの選択が重要なのはなぜですか？: 濃縮は遺伝子の参照セットに対して判断されます。不適切な背景（例えば、一部しか検出できなかったにもかかわらず、すべての遺伝子を使用する）を使用すると、統計的な理由でパスウェイが濃縮または枯渇しているように見える可能性があります。