Diversidade de Nucleotídeos e Classificação de Variantes
A diversidade de nucleotídeos mede o quanto duas sequências escolhidas aleatoriamente de uma população diferem em média, enquanto a classificação de variantes organiza os muitos tipos de diferenças de DNA — substituições de nucleotídeos únicos, pequenas inserções e deleções, e grandes alterações estruturais — em um vocabulário consistente. Juntos, eles descrevem tanto a quantidade de variação que um genoma carrega quanto a aparência dessa variação.
Definition
A diversidade de nucleotídeos (comumente denotada por pi) é o número médio de diferenças de nucleotídeos por sítio entre duas sequências amostradas de uma população; a classificação de variantes é a categorização sistemática das diferenças de sequência observadas (por exemplo, variantes de nucleotídeo único, indels, variantes estruturais).
Scope
A entrada aborda as medidas sumárias padrão da variação de sequência dentro da população, especialmente a diversidade de nucleotídeos e o número de sítios segregantes, e a classificação dos tipos de variantes por tamanho e pelo efeito previsto na sequência. Ela trata esses conceitos como descritivos e metodológicos; não atribui significado clínico a variantes específicas.
Core questions
- Como a quantidade de variação de sequência em uma amostra é sumarizada?
- Como a diversidade de nucleotídeos e o número de sítios segregantes diferem como estimadores?
- Quais são as principais classes de variantes genéticas por tamanho e tipo?
- Como as variantes são representadas e trocadas em um formato de arquivo padrão?
Key concepts
- Diversidade de nucleotídeos (pi)
- Sítios segregantes e theta de Watterson
- Variante de nucleotídeo único (SNV/SNP)
- Inserção-deleção (indel)
- Variante estrutural
- Alelos de referência e alternativos
- Formato de Chamada de Variantes (VCF)
Key theories
- Modelo de sítios infinitos e theta
- Sob a suposição de sítios infinitos, cada nova mutação ocorre em um sítio previamente não mutado, de modo que o parâmetro de mutação populacional theta pode ser estimado tanto a partir do número de sítios segregantes (estimador de Watterson) quanto a partir das diferenças pareadas médias (diversidade de nucleotídeos); a discrepância sistemática entre os dois é informativa sobre desvios da neutralidade.
Mechanisms
A variação é primeiramente detectada alinhando leituras sequenciadas a um genoma de referência e identificando posições que diferem; as diferenças são então classificadas por tamanho e forma. As estatísticas sumárias condensam isso em medidas de nível populacional: o número de sítios segregantes sustenta o estimador de theta de Watterson, enquanto as diferenças pareadas médias definem a diversidade de nucleotídeos. Como ambos estimam o mesmo parâmetro sob um modelo neutro e de tamanho constante, sua diferença (formalizada por Tajima) sinaliza mudança demográfica ou seleção. A representação padronizada no Formato de Chamada de Variantes (Variant Call Format) permite que as variantes sejam armazenadas, compartilhadas e comparadas entre estudos.
Clinical relevance
Um vocabulário consistente de variantes e estimativas confiáveis de diversidade são pré-requisitos para interpretar dados genômicos em contextos de saúde, pois as mesmas categorias descritivas são usadas quando um genoma sequenciado é rastreado para variantes clinicamente relevantes. Esta entrada explica como as variantes são descritas e contadas e não serve como base para decisões individuais de diagnóstico ou tratamento.
Evidence & guidelines
Estimadores fundamentais da diversidade de sequência foram estabelecidos por Watterson e por Tajima, enquanto grandes levantamentos como o mapa inicial de SNPs humanos e a referência do Projeto 1000 Genomas fornecem a escala empírica da variação humana. O Formato de Chamada de Variantes (Variant Call Format) e suas ferramentas são o padrão de facto da comunidade para representar variantes classificadas.
History
A genética de populações molecular inicial quantificou a variação através de levantamentos de aloenzimas e sítios de restrição, e depois através do sequenciamento de DNA. Os trabalhos de Watterson em 1975 e Tajima em 1989 forneceram os estimadores ainda usados hoje, e o mapa de SNPs humanos de 2001 e consórcios de sequenciamento posteriores transformaram a catalogação de variantes em uma empreitada genômica, acompanhada por formatos padrão como o VCF para representar as variantes resultantes.
Key figures
- G. A. Watterson
- Fumio Tajima
- Richard Durbin
- Gonçalo Abecasis
Related topics
Seminal works
- watterson-1975
- tajima-1989
- snp-map-2001
Frequently asked questions
- Qual é a diferença entre diversidade de nucleotídeos e o número de sítios segregantes?
- O número de sítios segregantes conta quantas posições variam em uma amostra, enquanto a diversidade de nucleotídeos mede a média das diferenças entre pares de sequências; ambos estimam o mesmo parâmetro subjacente sob um modelo neutro simples, e sua discrepância é, por si só, informativa.
- Um SNP é a mesma coisa que uma mutação?
- Um SNP é uma variante de nucleotídeo único observada segregando em uma população; ele se origina de uma mutação pontual, mas o termo enfatiza que a variante está presente em frequência apreciável, em vez de ser uma mudança recém-surgida em um único indivíduo.