Séquençage et assemblage du génome
Le séquençage d'un génome consiste à déterminer l'ordre de ses milliards de bases, ce que les machines de séquençage ne peuvent faire que par courts fragments, laissant aux logiciels le soin de reconstituer la séquence complète en identifiant les chevauchements entre ces fragments.
Definition
Le séquençage du génome est la détermination expérimentale de l'ordre des nucléotides de l'ADN d'un organisme, et l'assemblage est la reconstruction computationnelle de la séquence complète à partir des nombreuses lectures courtes produites par un séquenceur.
Scope
Ce thème couvre le séquençage dideoxy de Sanger, les principes du séquençage de nouvelle génération et du séquençage à lecture longue, les stratégies de séquençage aléatoire (shotgun) du génome entier et basées sur le clonage, l'assemblage computationnel des lectures en contigs et scaffolds, les mesures de qualité d'assemblage telles que la couverture et la contiguïté, ainsi que les génomes de référence qui en résultent. Il traite de la manière dont la séquence d'un génome est déterminée ; l'interprétation de cette séquence est abordée dans les sujets adjacents.
Core questions
- Comment le séquençage de Sanger détermine-t-il l'ordre des bases à l'aide de terminateurs de chaîne ?
- Qu'est-ce qui rend le séquençage de nouvelle génération et à lecture longue plus rapide et moins cher, et quels sont leurs compromis ?
- Comment des millions de lectures chevauchantes sont-elles assemblées en chromosomes ?
- Que nous apprennent les mesures de couverture et de contiguïté sur la qualité d'un assemblage ?
Key concepts
- Séquençage dideoxy de Sanger
- Séquençage de nouvelle génération et à lecture longue
- Stratégie de séquençage aléatoire (shotgun) du génome entier
- Assemblage des lectures : contigs et scaffolds
- Couverture, contiguïté et génomes de référence
Mechanisms
Le séquençage de Sanger utilise des didésoxyribonucléotides terminateurs de chaîne pour générer une échelle de fragments dont les longueurs révèlent la séquence ; les plateformes massivement parallèles lisent des millions de fragments simultanément, et les logiciels d'assemblage détectent les chevauchements entre les lectures pour les fusionner en contigs, puis ordonnent et orientent ceux-ci en scaffolds le long de chaque chromosome.
Clinical relevance
Le séquençage abordable a rendu le séquençage du génome entier et de l'exome courant pour le diagnostic des maladies héréditaires rares, le profilage des tumeurs, l'identification des agents pathogènes et le dépistage des nouveau-nés, transformant ainsi la détermination de séquence d'un projet historique en un test de laboratoire standard.
History
Sanger a introduit le séquençage par terminaison de chaîne en 1977, le Projet Génome Humain a appliqué des stratégies clone-par-clone et shotgun pour produire une séquence humaine préliminaire en 2001, et l'arrivée du séquençage de nouvelle génération au milieu des années 2000, suivie par les plateformes à lecture longue, a fait passer le coût d'un génome humain de milliards de dollars à quelques centaines.
Key figures
- Frederick Sanger
- Eric Lander
- Craig Venter
Related topics
Seminal works
- sanger1977
- lander2001
Frequently asked questions
- Pourquoi un génome doit-il être assemblé plutôt que lu directement ?
- Les instruments de séquençage ne peuvent lire que de courts segments d'ADN à la fois, de sorte qu'un génome est fragmenté en d'innombrables morceaux ; le logiciel d'assemblage reconstitue ensuite l'ordre original en détectant les chevauchements entre les fragments.
- Que signifie la couverture de séquençage ?
- La couverture est le nombre moyen de fois que chaque base du génome est lue ; une couverture plus élevée confère une plus grande confiance dans chaque appel et aide à distinguer les vraies variantes des erreurs de séquençage.