Séquençage, assemblage et standards de référence du génome
Ce domaine couvre la manière dont l'ordre des nucléotides d'un génome est lu, comment les fragments résultants sont reconstruits en séquences contiguës plus longues, et comment les génomes de référence curatés sont construits et maintenus afin que de nouvelles données puissent être alignées et interprétées par rapport à un standard partagé. Collectivement, ces étapes constituent le fondement technique sur lequel repose la quasi-totalité de la génomique.
Definition
Le séquençage du génome est la détermination de l'ordre des nucléotides de l'ADN d'un organisme ; l'assemblage est la reconstruction computationnelle de lectures de séquences chevauchantes en séquences contiguës plus longues ; et les standards de référence sont les assemblages et annotations de génomes curatés et versionnés par rapport auxquels les nouvelles données de séquence sont alignées et comparées.
Scope
Ce domaine englobe les chimies de séquençage, du séquençage didésoxy de Sanger aux plateformes à haut débit de lecture courte et longue, l'assemblage computationnel des lectures en contigs et scaffolds, la construction et l'annotation de génomes de référence tels que GRCh38 et l'assemblage télomère-à-télomère, ainsi que les étapes de contrôle qualité et de correction d'erreurs qui régissent la fiabilité des données. Il les traite comme des sujets méthodologiques et infrastructurels, et non comme des procédures cliniques.
Sub-topics
Core questions
- Comment l'ordre des nucléotides d'un génome est-il déterminé, et comment les chimies de séquençage ont-elles évolué ?
- Comment les lectures de séquences courtes ou longues sont-elles reconstruites en un génome complet ?
- Qu'est-ce qui fait d'un assemblage de génome une référence utilisable, et comment est-il versionné et annoté ?
- Comment les erreurs de séquençage sont-elles détectées, quantifiées et corrigées afin que les analyses en aval soient fiables ?
Key concepts
- Lecture, contig et scaffold
- Couverture et profondeur de séquençage
- Séquençage à lecture courte versus à lecture longue
- Assemblage de novo versus alignement guidé par référence
- Génome de référence et build de génome (par exemple, GRCh38)
- Annotation du génome
- Score de qualité par base (Phred)
Mechanisms
Les plateformes de séquençage convertissent l'ADN physique en appels de bases lisibles par machine, chacun étant accompagné d'une estimation de qualité. Étant donné que la plupart des plateformes ne lisent que des fragments bien plus courts qu'un chromosome, les fragments doivent être assemblés : l'assemblage de novo reconstruit le génome à partir des chevauchements de lectures (historiquement par consensus chevauchement-agencement, maintenant souvent par graphes de De Bruijn pour les lectures courtes), tandis que l'analyse guidée par référence aligne les lectures sur un assemblage existant. Un génome de référence est une séquence consensus curatée, versionnée sous forme de builds successifs et enrichie d'annotations, qui fournit le système de coordonnées pour le domaine. Le contrôle qualité et la correction d'erreurs s'appliquent à l'ensemble du pipeline, estimant la précision par base et supprimant ou corrigeant les artefacts avant l'appel des variants.
Clinical relevance
Un séquençage, un assemblage et des standards de référence fiables sous-tendent la génomique clinique et de recherche, car l'interprétation des variants dépend de lectures précises alignées sur une référence bien caractérisée. Ce domaine décrit l'infrastructure qui génère des preuves génomiques ; il s'agit d'un matériel de référence et éducatif et non d'une base pour des décisions diagnostiques ou thérapeutiques individuelles.
Evidence & guidelines
Les méthodes présentées ici sont documentées par des études primaires marquantes et des rapports de consortium plutôt que par des directives cliniques : la méthode de terminaison de chaîne de Sanger (1977), l'ébauche du Projet Génome Humain (2001), les revues des plateformes de nouvelle génération (Metzker, 2010), et le génome humain complet télomère-à-télomère (Nurk et al., 2022) retracent la trajectoire du domaine.
History
Le séquençage de l'ADN a débuté avec la chimie de terminaison de chaîne de Sanger en 1977, ce qui a permis de lire les premiers génomes et a alimenté la séquence ébauche du Projet Génome Humain en 2001. L'essor ultérieur des plateformes à haut débit (de nouvelle génération) a réduit les coûts de plusieurs ordres de grandeur, et les technologies de lecture longue ont ensuite résolu les régions répétitives, culminant avec le premier génome humain complet et sans lacunes en 2022.
Key figures
- Frederick Sanger
- Eric Lander
- Michael Metzker
- Sergey Koren
- Adam Phillippy
Related topics
Seminal works
- sanger-1977
- ihgsc-2001
- metzker-2009
- nurk-2022
Frequently asked questions
- Quelle est la différence entre le séquençage et l'assemblage ?
- Le séquençage lit l'ordre des nucléotides dans les fragments d'ADN, tandis que l'assemblage est l'étape computationnelle qui reconstruit ces fragments en séquences contiguës plus longues, telles que des contigs, des scaffolds ou des chromosomes entiers.
- Pourquoi le domaine a-t-il besoin d'un génome de référence ?
- Un génome de référence fournit un système de coordonnées partagé et versionné afin que les nouvelles données de séquence provenant de différents individus et laboratoires puissent être alignées, comparées et interprétées de manière cohérente.