ScholarGate
Assistant

Diversité nucléotidique et classification des variants

La diversité nucléotidique mesure la différence moyenne entre deux séquences choisies au hasard dans une population, tandis que la classification des variants organise les nombreux types de différences d'ADN — substitutions d'un seul nucléotide, petites insertions et délétions, et changements structurels plus importants — en un vocabulaire cohérent. Ensemble, elles décrivent à la fois l'étendue de la variation portée par un génome et l'apparence de cette variation.

Trouver un sujet avec PaperMindBientôtFind papers & topics
Tools & resources
Télécharger les diapositives
Learn & explore
VidéoBientôt

Definition

La diversité nucléotidique (communément notée pi) est le nombre moyen de différences nucléotidiques par site entre deux séquences échantillonnées d'une population ; la classification des variants est la catégorisation systématique des différences de séquence observées (par exemple, variants mononucléotidiques, indels, variants structurels).

Scope

Cette entrée couvre les mesures récapitulatives standard de la variation de séquence au sein d'une population, en particulier la diversité nucléotidique et le nombre de sites ségrégeants, ainsi que la classification des types de variants par taille et par effet prédit sur la séquence. Elle les traite comme des concepts descriptifs et méthodologiques ; elle n'attribue pas de signification clinique à des variants particuliers.

Core questions

  • Comment la quantité de variation de séquence dans un échantillon est-elle résumée ?
  • En quoi la diversité nucléotidique et le nombre de sites ségrégeants diffèrent-ils en tant qu'estimateurs ?
  • Quelles sont les principales classes de variants génétiques par taille et par type ?
  • Comment les variants sont-ils représentés et échangés dans un format de fichier standard ?

Key concepts

  • Diversité nucléotidique (pi)
  • Sites ségrégeants et thêta de Watterson
  • Variant mononucléotidique (SNV/SNP)
  • Insertion-délétion (indel)
  • Variant structurel
  • Allèles de référence et alternatifs
  • Variant Call Format (VCF)

Key theories

Modèle des sites infinis et thêta
Sous l'hypothèse des sites infinis, chaque nouvelle mutation se produit sur un site précédemment non muté, de sorte que le paramètre de mutation de la population thêta peut être estimé soit à partir du nombre de sites ségrégeants (estimateur de Watterson), soit à partir des différences moyennes par paires (diversité nucléotidique) ; un écart systématique entre les deux est informatif quant aux déviations de la neutralité.

Mechanisms

La variation est d'abord détectée en alignant les lectures séquencées sur un génome de référence et en identifiant les positions qui diffèrent ; les différences sont ensuite classifiées par taille et par forme. Les statistiques récapitulatives condensent cela en mesures au niveau de la population : le nombre de sites ségrégeants sous-tend l'estimateur thêta de Watterson, tandis que les différences moyennes par paires définissent la diversité nucléotidique. Étant donné que les deux estiment le même paramètre sous un modèle neutre et de taille constante, leur différence (formalisée par Tajima) signale un changement démographique ou une sélection. La représentation standardisée dans le format Variant Call Format permet de stocker, partager et comparer les variants entre les études.

Clinical relevance

Un vocabulaire cohérent des variants et des estimations fiables de la diversité sont des prérequis pour l'interprétation des données génomiques dans les contextes de santé, car les mêmes catégories descriptives sont utilisées lorsqu'un génome séquencé est criblé pour des variants cliniquement pertinents. Cette entrée explique comment les variants sont décrits et comptés et ne constitue pas une base pour des décisions diagnostiques ou thérapeutiques individuelles.

Evidence & guidelines

Les estimateurs fondamentaux de la diversité des séquences ont été établis par Watterson et par Tajima, tandis que de grandes études telles que la première carte SNP humaine et la référence du projet 1000 Genomes fournissent l'échelle empirique de la variation humaine. Le Variant Call Format et ses outils sont la norme communautaire de facto pour la représentation des variants classifiés.

History

La génétique des populations moléculaire précoce a quantifié la variation par des études d'allozymes et de sites de restriction, puis par le séquençage de l'ADN. Les travaux de Watterson en 1975 et de Tajima en 1989 ont fourni les estimateurs encore utilisés aujourd'hui, et la carte SNP humaine de 2001 et les consortiums de séquençage ultérieurs ont transformé le catalogage des variants en une entreprise à l'échelle du génome, accompagnée de formats standard tels que VCF pour représenter les variants résultants.

Key figures

  • G. A. Watterson
  • Fumio Tajima
  • Richard Durbin
  • Gonçalo Abecasis

Related topics

Seminal works

  • watterson-1975
  • tajima-1989
  • snp-map-2001

Frequently asked questions

Quelle est la différence entre la diversité nucléotidique et le nombre de sites ségrégeants ?
Le nombre de sites ségrégeants compte le nombre de positions qui varient dans un échantillon, tandis que la diversité nucléotidique fait la moyenne des différences entre les paires de séquences ; les deux estiment le même paramètre sous-jacent selon un modèle neutre simple, et leur écart est en soi informatif.
Un SNP est-il la même chose qu'une mutation ?
Un SNP est un variant mononucléotidique observé ségrégeant dans une population ; il provient d'une mutation ponctuelle, mais le terme souligne que le variant est présent à une fréquence appréciable plutôt que d'être un changement nouvellement apparu chez un seul individu.

Methods for this concept

Related concepts