Contrôle qualité et correction d'erreurs en séquençage
Chaque cycle de séquençage produit des appels de bases d'une fiabilité variable. Le contrôle qualité et la correction d'erreurs sont donc des étapes essentielles qui permettent de quantifier la précision par base, de filtrer ou d'élaguer les données de faible qualité, et de corriger les artefacts systématiques avant que les lectures ne soient assemblées ou utilisées pour l'appel de variants. Sans ces processus, les conclusions génomiques en aval risquent d'être faussées par le bruit technique plutôt que par des phénomènes biologiques.
Definition
Le contrôle qualité en séquençage est l'évaluation et l'amélioration de la fiabilité des lectures, en utilisant des scores de qualité par base, l'élagage et le filtrage, ainsi que des méthodes de correction d'erreurs, afin de supprimer ou de corriger les artefacts techniques pour que l'assemblage et l'appel de variants reflètent la séquence sous-jacente plutôt que l'erreur de mesure.
Scope
Cette entrée aborde la notation de qualité par base (Phred), les types d'erreurs et de biais qui affectent les lectures de séquençage, l'élagage et le filtrage des lectures, ainsi que le rôle de la couverture redondante dans la distinction entre le signal réel et l'erreur. Il s'agit d'un sujet méthodologique relatif à la fiabilité des données et ne fournit pas de protocoles cliniques ou de laboratoire.
Core questions
- Comment la fiabilité d'un appel de base individuel est-elle quantifiée ?
- Quels types d'erreurs et de biais affectent les lectures de séquençage ?
- Comment l'élagage, le filtrage et la couverture redondante réduisent-ils l'impact des erreurs ?
Key concepts
- Score de qualité Phred
- Précision de l'appel de base
- Élagage et filtrage des lectures
- Profils d'erreurs de séquençage
- Réduction des erreurs par couverture et consensus
- Élagage des adaptateurs et de la qualité
- Contrôle des faux positifs de variants
Mechanisms
Les plateformes de séquençage attribuent à chaque appel de base un score de qualité Phred, une estimation logarithmique de la probabilité que l'appel soit erroné, ce qui permet de signaler les bases de faible confiance. Les outils de contrôle qualité élaguent ensuite les adaptateurs et les extrémités de faible qualité, et filtrent les lectures peu fiables avant l'analyse. Étant donné que les erreurs sont en partie aléatoires et en partie systématiques, séquencer chaque position de nombreuses fois permet d'établir un consensus, de sorte que les erreurs isolées sont minoritaires. De plus, la caractérisation des profils d'erreurs aide à distinguer les artefacts récurrents des variants réels de faible fréquence. Ces étapes réduisent les faux positifs dans l'appel de variants en aval et améliorent la précision de l'assemblage.
Clinical relevance
Le contrôle qualité et la correction d'erreurs déterminent si les résultats génomiques reflètent une séquence réelle ou un bruit technique, ce qui est crucial partout où le séquençage éclaire la recherche ou l'interprétation clinique. Cette entrée est un matériel de référence éducatif sur la fiabilité des données et ne constitue pas une directive pour un test spécifique ou une décision clinique.
Evidence & guidelines
Les méthodes sont documentées par des articles primaires sur les outils et l'analyse plutôt que par des directives cliniques : Ewing et al. (1998) ont établi le score de qualité Phred par base, Bolger et al. (2014) est un outil d'élagage de lectures largement utilisé, et Ma et al. (2019) caractérisent les profils d'erreurs dans les données de séquençage profond ; des revues comme Sims et al. (2014) relient la couverture au contrôle des erreurs.
History
La notation de qualité par base a été formalisée avec le programme Phred en 1998, offrant aux données de séquençage une mesure standardisée et interprétable de la confiance des appels de base, qui est devenue universelle. Alors que les plateformes à haut débit produisaient de vastes volumes de lectures, des outils dédiés d'élagage et de filtrage ont émergé dans les années 2010, et des analyses détaillées des profils d'erreurs ont affiné la manière dont les variants réels de faible fréquence sont séparés des artefacts de séquençage systématiques.
Key figures
- Phil Green
- Brent Ewing
- Björn Usadel
Related topics
Seminal works
- ewing-1998
- bolger-2014
- ma-2019
Frequently asked questions
- Qu'est-ce qu'un score de qualité Phred ?
- C'est une mesure logarithmique de la probabilité estimée qu'un appel de base soit incorrect ; par exemple, un score Phred de 30 correspond à environ 1 chance sur 1000 d'erreur, donc des scores plus élevés indiquent des appels de base plus fiables.
- Comment le séquençage répété de la même position réduit-il les erreurs ?
- Lorsqu'une position est couverte par de nombreuses lectures indépendantes, les erreurs aléatoires dans les lectures individuelles peuvent être minorisées par la majorité, de sorte que l'établissement d'un consensus entre les lectures produit un appel de base plus précis que toute lecture unique.