ScholarGate
アシスタント

シーケンスにおける品質管理とエラー訂正

すべてのシーケンスランは、信頼性が異なる塩基コールを生成するため、品質管理とエラー訂正は、リードがアセンブルされたりバリアントコールに使用されたりする前に、塩基ごとの精度を定量化し、低品質データをフィルタリングまたはトリミングし、系統的なアーティファクトを訂正するステップです。これらがないと、下流のゲノムに関する結論は、生物学的なものではなく、技術的なノイズによって歪められる可能性があります。

PaperMindでテーマを探す近日公開Find papers & topics
Tools & resources
スライドをダウンロード
Learn & explore
動画近日公開

Definition

シーケンスにおける品質管理とは、塩基ごとの品質スコア、トリミングとフィルタリング、およびエラー訂正法を用いて、技術的なアーティファクトを除去または訂正し、アセンブリとバリアントコールが測定誤差ではなく基礎となるシーケンスを反映するように、リードの信頼性を評価し改善することです。

Scope

この項目では、塩基ごとの品質(Phred)スコアリング、シーケンスリードに影響を与えるエラーとバイアスの種類、リードのトリミングとフィルタリング、および真のシグナルとエラーを区別する上での冗長なカバレッジの役割について説明します。これはデータ信頼性に関する方法論的なトピックであり、臨床または実験プロトコルを提供するものではありません。

Core questions

  • 個々の塩基コールの信頼性はどのように定量化されますか?
  • シーケンスリードにはどのような種類のエラーとバイアスが影響しますか?
  • トリミング、フィルタリング、および冗長なカバレッジは、エラーの影響をどのように軽減しますか?

Key concepts

  • Phred品質スコア
  • 塩基コール精度
  • リードトリミングとフィルタリング
  • シーケンスエラープロファイル
  • カバレッジとコンセンサスによるエラー削減
  • アダプターおよび品質トリミング
  • 偽陽性バリアント制御

Mechanisms

シーケンスプラットフォームは、各塩基コールにPhred品質スコアを割り当てます。これは、コールが間違っている確率の対数推定値であり、信頼性の低い塩基をフラグ付けできます。品質管理ツールは、分析前にアダプターと低品質の末端をトリミングし、信頼性の低いリードをフィルタリングします。エラーは部分的にランダムであり、部分的に系統的であるため、各位置を何度もシーケンスすることでコンセンサスが得られ、孤立したエラーは多数決で排除されます。一方、エラープロファイルを特徴付けることは、繰り返されるアーティファクトと真の低頻度バリアントを区別するのに役立ちます。これらのステップは、下流のバリアントコールにおける偽陽性を減らし、アセンブリの精度を向上させます。

Clinical relevance

品質管理とエラー訂正は、ゲノムの発見が真のシーケンスを反映しているのか、それとも技術的なノイズを反映しているのかを決定します。これは、シーケンスが研究や臨床解釈に情報を提供するあらゆる場面で重要です。この項目は、データ信頼性に関する教育的な参考資料であり、特定の検査や臨床決定に対するガイダンスを構成するものではありません。

Evidence & guidelines

これらの方法は、臨床ガイドラインではなく、主要なツールおよび分析論文を通じて文書化されています。Ewingら(1998)はPhred塩基ごとの品質スコアを確立し、Bolgerら(2014)は広く使用されているリードトリミングツールであり、Maら(2019)はディープシーケンスデータにおけるエラープロファイルを特徴付けています。Simsら(2014)のようなレビューは、カバレッジとエラー制御を結びつけています。

History

塩基ごとの品質スコアリングは、1998年にPhredプログラムで形式化され、シーケンスデータに標準化された、解釈可能な塩基コール信頼性の尺度を与え、それが普遍的になりました。ハイスループットプラットフォームが膨大な量のリードを生成するにつれて、2010年代には専用のトリミングおよびフィルタリングツールが登場し、エラープロファイルの詳細な分析により、真の低頻度バリアントを系統的なシーケンスアーティファクトから分離する方法が洗練されました。

Key figures

  • Phil Green
  • Brent Ewing
  • Björn Usadel

Related topics

Seminal works

  • ewing-1998
  • bolger-2014
  • ma-2019

Frequently asked questions

Phred品質スコアとは何ですか?
これは、塩基コールが間違っている推定確率の対数尺度です。例えば、Phredスコア30は、約1000分の1のエラーの可能性に対応するため、スコアが高いほど塩基コールの信頼性が高いことを示します。
同じ位置を何度もシーケンスすると、エラーはどのように減少しますか?
ある位置が多くの独立したリードによってカバーされている場合、個々のリードにおけるランダムなエラーは多数決によって排除されるため、リード間のコンセンサスを取ることで、単一のリードよりも正確な塩基コールが得られます。

Methods for this concept

Related concepts