Desequilíbrio de Ligação e Marcação de SNPs
O desequilíbrio de ligação (LD) é a coocorrência não aleatória de alelos em diferentes posições no genoma: variantes próximas tendem a ser herdadas juntas como blocos de haplótipos. Essa correlação é o que torna os estudos de associação de genoma completo acessíveis — um array de genotipagem precisa apenas tipar um subconjunto de SNPs 'marcadores' cuidadosamente escolhidos, porque cada marcador representa estatisticamente as variantes não tipadas com as quais está em forte LD.
Definition
Desequilíbrio de ligação é a associação estatística entre alelos em dois ou mais loci — sua coocorrência em haplótipos mais ou menos frequentemente do que o esperado se fossem independentes — e a marcação de SNPs é o uso de um subconjunto de variantes que, através do LD, capturam a variação de sítios vizinhos não tipados.
Scope
Este tópico explica o que é LD, como é medido (D' e r-quadrado), por que forma blocos moldados pela recombinação e história populacional, como os SNPs marcadores são selecionados para capturar a variação comum de forma eficiente e como o LD tanto possibilita o mapeamento de associação quanto complica a localização de variantes causais. É uma referência metodológica, não uma orientação clínica.
Core questions
- O que significa para duas variantes estarem em desequilíbrio de ligação?
- Como D' e r-quadrado são usados para quantificar o LD, e como eles diferem?
- Por que o genoma se divide em blocos de haplótipos, e o que determina seus limites?
- Como os SNPs marcadores são escolhidos para que um array capture a maioria da variação comum?
- Por que o LD dificulta a identificação da variante causal real dentro de uma região associada?
Key concepts
- Haplótipo e bloco de haplótipos
- D' (coeficiente de desequilíbrio normalizado)
- r-quadrado (correlação entre marcadores)
- Hotspots de recombinação
- Seleção de SNP marcador
- Painéis de haplótipos de referência (HapMap, 1000 Genomas)
- Mapeamento fino e ambiguidade da variante causal
Mechanisms
Alelos em loci próximos são herdados juntos até que a recombinação os separe, de modo que, ao longo das gerações, o LD decai com a distância genética e é quebrado em hotspots de recombinação, produzindo blocos de alta correlação interna. Duas medidas comuns o quantificam: D' captura se a recombinação ocorreu entre dois sítios, enquanto o r-quadrado mede quão bem uma variante prevê outra e governa diretamente o poder perdido quando um SNP marcador serve como proxy para uma variante causal não tipada. Como as variantes dentro de um bloco são fortemente correlacionadas, um array pode genotipar um conjunto escolhido de SNPs marcadores e recuperar a maioria da variação comum, e as variantes ausentes podem ser imputadas estatisticamente contra painéis de referência sequenciados, como o HapMap e o Projeto 1000 Genomas. A mesma correlação que permite a marcação também significa que um sinal de associação é compartilhado entre muitas variantes em um bloco, então identificar a verdadeira variante causal requer mapeamento fino adicional, em vez de simplesmente tomar o marcador mais significativo.
Clinical relevance
A estrutura do LD subjaz à forma como a evidência genética de genoma completo é gerada e como as regiões de associação são interpretadas na pesquisa de doenças. Este tópico é descritivo de método e genética populacional; não é uma base para testes genéticos individuais ou interpretação clínica.
Evidence & guidelines
O conhecimento da estrutura do LD humano baseia-se em grandes recursos de referência, e não em diretrizes clínicas. O Projeto Internacional HapMap (2007) mapeou o LD e os SNPs marcadores em todo o genoma, o Projeto 1000 Genomas (2015) estendeu os haplótipos de referência em diversas populações, e revisões como Slatkin (2008) e Bush e Moore (2012) explicam como as medidas de LD e a marcação são aplicadas no mapeamento de associação.
History
O conceito de associação alélica precede a genômica, mas sua importância prática cresceu com a descoberta, no início dos anos 2000, de que o genoma humano possui uma estrutura de haplótipos em blocos moldada por hotspots de recombinação. O Projeto HapMap então catalogou o LD em todo o genoma e tornou a seleção de SNPs marcadores viável, o que possibilitou diretamente os primeiros arrays de GWAS acessíveis. O Projeto 1000 Genomas mais tarde ampliou os painéis de referência para muitas populações, melhorando a imputação e revelando como os padrões de LD diferem por ancestralidade.
Debates
- Os padrões de LD se transferem entre populações?
- A estrutura do haplótipo e o LD variam com a história populacional, de modo que os SNPs marcadores e os painéis de imputação otimizados em uma ancestralidade capturam a variação imperfeitamente em outra, contribuindo para o desempenho reduzido de arrays e escores de origem europeia em outras populações.
Key figures
- Montgomery Slatkin
- Mark Daly
- David Altshuler
- Goncalo Abecasis
- William Bush
Related topics
Seminal works
- slatkin-2008
- hapmap-2007
- 1000g-2015
Frequently asked questions
- Como o desequilíbrio de ligação permite que um GWAS tipifique apenas algumas variantes?
- Como as variantes em um bloco de haplótipos são fortemente correlacionadas, um SNP marcador genotipado carrega informações sobre seus vizinhos não tipados, de modo que um array de marcadores bem escolhidos captura a maioria da variação comum no genoma.
- Qual é a diferença entre D' e r-quadrado?
- D' mede se a recombinação separou historicamente dois alelos, enquanto r-quadrado mede quão bem uma variante prevê estatisticamente outra; r-quadrado é a quantidade mais relevante para o poder do teste de associação baseado em SNP marcador.