Nukleotid-Diversität und Variantenklassifizierung
Die Nukleotid-Diversität misst, wie stark zwei zufällig ausgewählte Sequenzen aus einer Population im Durchschnitt voneinander abweichen, während die Variantenklassifizierung die vielen Arten von DNA-Unterschieden – Einzelnukleotid-Substitutionen, kleine Insertionen und Deletionen sowie größere strukturelle Veränderungen – in einem konsistenten Vokabular organisiert. Zusammen beschreiben sie sowohl das Ausmaß der Variation, die ein Genom aufweist, als auch deren Erscheinungsbild.
Definition
Nukleotid-Diversität (häufig mit pi bezeichnet) ist die durchschnittliche Anzahl von Nukleotid-Unterschieden pro Stelle zwischen zwei aus einer Population entnommenen Sequenzen; Variantenklassifizierung ist die systematische Kategorisierung beobachteter Sequenzunterschiede (z. B. Einzelnukleotid-Varianten, Indels, strukturelle Varianten).
Scope
Der Eintrag behandelt die standardmäßigen zusammenfassenden Maße der Sequenzvariation innerhalb einer Population, insbesondere die Nukleotid-Diversität und die Anzahl segregierender Stellen, sowie die Klassifizierung von Variantentypen nach Größe und vorhergesagter Auswirkung auf die Sequenz. Er behandelt diese als deskriptive und methodische Konzepte; er weist bestimmten Varianten keine klinische Signifikanz zu.
Core questions
- Wie wird das Ausmaß der Sequenzvariation in einer Probe zusammengefasst?
- Wie unterscheiden sich Nukleotid-Diversität und die Anzahl segregierender Stellen als Schätzer?
- Was sind die Hauptklassen genetischer Varianten nach Größe und Typ?
- Wie werden Varianten in einem Standarddateiformat dargestellt und ausgetauscht?
Key concepts
- Nukleotid-Diversität (pi)
- Segregierende Stellen und Wattersons Theta
- Einzelnukleotid-Variante (SNV/SNP)
- Insertion-Deletion (Indel)
- Strukturelle Variante
- Referenz- und Alternativ-Allele
- Variant Call Format (VCF)
Key theories
- Unendlich-Stellen-Modell und Theta
- Unter der Annahme unendlicher Stellen fällt jede neue Mutation an eine zuvor unmutierte Stelle, sodass der Populationsmutationsparameter Theta entweder aus der Anzahl segregierender Stellen (Wattersons Schätzer) oder aus durchschnittlichen paarweisen Unterschieden (Nukleotid-Diversität) geschätzt werden kann; eine systematische Diskrepanz zwischen beiden gibt Aufschluss über Abweichungen von der Neutralität.
Mechanisms
Variationen werden zunächst durch den Abgleich sequenzierter Reads mit einem Referenzgenom und die Identifizierung abweichender Positionen detektiert; Unterschiede werden dann nach Größe und Form klassifiziert. Zusammenfassende Statistiken verdichten dies zu populationsweiten Maßen: Die Anzahl segregierender Stellen liegt dem Watterson-Schätzer von Theta zugrunde, während durchschnittliche paarweise Unterschiede die Nukleotid-Diversität definieren. Da beide denselben Parameter unter einem neutralen Modell konstanter Populationsgröße schätzen, signalisiert ihre Differenz (von Tajima formalisiert) demografische Veränderungen oder Selektion. Die standardisierte Darstellung im Variant Call Format ermöglicht die Speicherung, den Austausch und den Vergleich von Varianten über Studien hinweg.
Clinical relevance
Ein konsistentes Varianten-Vokabular und zuverlässige Diversitätsschätzungen sind Voraussetzungen für die Interpretation genomischer Daten im Gesundheitswesen, da dieselben deskriptiven Kategorien verwendet werden, wenn ein sequenziertes Genom auf klinisch relevante Varianten gescreent wird. Dieser Eintrag erklärt, wie Varianten beschrieben und gezählt werden, und ist keine Grundlage für individuelle Diagnose- oder Behandlungsentscheidungen.
Evidence & guidelines
Grundlegende Schätzer der Sequenzdiversität wurden von Watterson und Tajima etabliert, während große Studien wie die frühe menschliche SNP-Karte und das 1000 Genomes Project die empirische Skala der menschlichen Variation liefern. Das Variant Call Format und seine Tools sind der De-facto-Gemeinschaftsstandard für die Darstellung klassifizierter Varianten.
History
Die frühe molekulare Populationsgenetik quantifizierte Variationen zunächst durch Allozym- und Restriktionsstellen-Analysen, dann durch DNA-Sequenzierung. Die Arbeiten von Watterson (1975) und Tajima (1989) lieferten die noch heute verwendeten Schätzer, und die menschliche SNP-Karte von 2001 sowie spätere Sequenzierungskonsortien machten die Variantenkatalogisierung zu einem genomweiten Unterfangen, begleitet von Standardformaten wie VCF zur Darstellung der resultierenden Varianten.
Key figures
- G. A. Watterson
- Fumio Tajima
- Richard Durbin
- Gonçalo Abecasis
Related topics
Seminal works
- watterson-1975
- tajima-1989
- snp-map-2001
Frequently asked questions
- Was ist der Unterschied zwischen Nukleotid-Diversität und der Anzahl segregierender Stellen?
- Die Anzahl segregierender Stellen zählt, wie viele Positionen in einer Probe variieren, während die Nukleotid-Diversität die Unterschiede zwischen Sequenzpaaren mittelt; beide schätzen denselben zugrunde liegenden Parameter unter einem einfachen neutralen Modell, und ihre Diskrepanz ist selbst informativ.
- Ist ein SNP dasselbe wie eine Mutation?
- Ein SNP ist eine Einzelnukleotid-Variante, die in einer Population segregierend beobachtet wird; sie entsteht aus einer Punktmutation, aber der Begriff betont, dass die Variante in einer nennenswerten Frequenz vorhanden ist, anstatt eine neu aufgetretene Veränderung bei einem Individuum zu sein.