Nükleotit Çeşitliliği ve Varyant Sınıflandırması
Nükleotit çeşitliliği, bir popülasyondan rastgele seçilen iki dizinin ortalama olarak ne kadar farklılaştığını ölçerken, varyant sınıflandırması, tek nükleotit sübstitüsyonları, küçük insersiyonlar ve delesyonlar ile daha büyük yapısal değişiklikler gibi birçok DNA farklılık türünü tutarlı bir terminoloji içinde düzenlemektedir. Bu iki kavram birlikte, bir genomun ne kadar varyasyon taşıdığını ve bu varyasyonun neye benzediğini tanımlamaktadır.
Tanım
Nükleotit çeşitliliği (genellikle pi ile gösterilir), bir popülasyondan örneklenen iki dizi arasındaki bölge başına ortalama nükleotit farklılık sayısıdır; varyant sınıflandırması ise gözlemlenen dizi farklılıklarının (örn. tek nükleotit varyantları, indeller, yapısal varyantlar) sistematik olarak kategorize edilmesidir.
Kapsam
Bu madde, popülasyon içi dizi varyasyonunun standart özet ölçümlerini, özellikle nükleotit çeşitliliğini ve ayrışan bölgelerin sayısını (segregating sites), ayrıca varyant tiplerinin boyutlarına ve dizi üzerindeki öngörülen etkilerine göre sınıflandırılmasını kapsamaktadır. Bu kavramlar tanımlayıcı ve metodolojik olarak ele alınmakta; belirli varyantlara klinik önem atfedilmemektedir.
Temel sorular
- Bir örneklemdeki dizi varyasyon miktarı nasıl özetlenmektedir?
- Nükleotit çeşitliliği ve ayrışan bölgelerin sayısı (segregating sites) tahminleyici olarak nasıl farklılaşmaktadır?
- Boyut ve tipe göre genetik varyantların ana sınıfları nelerdir?
- Varyantlar standart bir dosya formatında nasıl temsil edilmekte ve değiş tokuş edilmektedir?
Anahtar kavramlar
- Nükleotit çeşitliliği (pi)
- Ayrışan bölgeler (segregating sites) ve Watterson'ın tetası
- Tek nükleotit varyantı (SNV/SNP)
- İnsersiyon-delesyon (indel)
- Yapısal varyant
- Referans ve alternatif aleller
- Varyant Çağrı Formatı (VCF)
Temel kuramlar
- Sonsuz bölgeler modeli ve teta
- Sonsuz bölgeler varsayımı altında, her yeni mutasyon daha önce mutasyona uğramamış bir bölgeye düşmektedir; bu nedenle popülasyon mutasyon parametresi teta, ya ayrışan bölgelerin sayısından (Watterson'ın tahminleyicisi) ya da ortalama ikili farklılıklardan (nükleotit çeşitliliği) tahmin edilebilmektedir; ikisi arasındaki sistematik tutarsızlık, nötrlükten sapmalar hakkında bilgi vermektedir.
Mekanizmalar
Varyasyon, öncelikle dizilenmiş okumaların bir referans genoma hizalanması ve farklılık gösteren pozisyonların belirlenmesiyle tespit edilmektedir; farklılıklar daha sonra boyut ve forma göre sınıflandırılmaktadır. Özet istatistikler bunu popülasyon düzeyindeki ölçümlere dönüştürmektedir: ayrışan bölgelerin sayısı (segregating sites) Watterson'ın teta tahminleyicisinin temelini oluştururken, ortalama ikili farklılıklar nükleotit çeşitliliğini tanımlamaktadır. Her ikisi de nötr, sabit boyutlu bir model altında aynı parametreyi tahmin ettiğinden, aralarındaki fark (Tajima tarafından formüle edilmiştir) demografik değişimi veya seçilimi işaret etmektedir. Varyant Çağrı Formatı'ndaki (Variant Call Format) standartlaştırılmış temsil, varyantların çalışmalar arasında depolanmasına, paylaşılmasına ve karşılaştırılmasına olanak tanımaktadır.
Klinik önem
Tutarlı bir varyant terminolojisi ve güvenilir çeşitlilik tahminleri, sağlık ortamlarında genomik verilerin yorumlanması için ön koşuldur, çünkü dizilenmiş bir genom klinik olarak ilgili varyantlar açısından taranırken aynı tanımlayıcı kategoriler kullanılmaktadır. Bu madde, varyantların nasıl tanımlandığını ve sayıldığını açıklamakta olup, bireysel tanı veya tedavi kararları için bir temel oluşturmamaktadır.
Kanıt ve kılavuzlar
Dizi çeşitliliğinin temel tahminleyicileri Watterson ve Tajima tarafından oluşturulmuş, erken dönem insan SNP haritası ve 1000 Genom Projesi referansı gibi büyük araştırmalar ise insan varyasyonunun ampirik ölçeğini sağlamıştır. Varyant Çağrı Formatı (Variant Call Format) ve araçları, sınıflandırılmış varyantları temsil etmek için fiili topluluk standardıdır.
Tarihçe
Erken moleküler popülasyon genetiği, varyasyonu allozim ve restriksiyon bölgesi araştırmaları aracılığıyla, daha sonra ise DNA dizilemesi yoluyla nicelendirmiştir. Watterson'ın 1975 ve Tajima'nın 1989 tarihli çalışmaları, günümüzde hala kullanılan tahminleyicileri sağlamış, 2001 insan SNP haritası ve sonraki dizileme konsorsiyumları ise varyant kataloglamayı genom çapında bir girişime dönüştürmüş, ortaya çıkan varyantları temsil etmek için VCF gibi standart formatlarla birlikte ilerlemiştir.
Öne çıkan isimler
- G. A. Watterson
- Fumio Tajima
- Richard Durbin
- Gonçalo Abecasis
İlgili konular
Temel eserler
- watterson-1975
- tajima-1989
- snp-map-2001
Sıkça sorulan sorular
- Nükleotit çeşitliliği ile ayrışan bölgelerin sayısı (segregating sites) arasındaki fark nedir?
- Ayrışan bölgelerin sayısı (segregating sites), bir örneklemde kaç pozisyonun farklılaştığını sayarken, nükleotit çeşitliliği dizi çiftleri arasındaki farklılıkların ortalamasını almaktadır; her ikisi de basit bir nötr model altında aynı temel parametreyi tahmin etmekte olup, aralarındaki tutarsızlık başlı başına bilgilendiricidir.
- Bir SNP, mutasyonla aynı şey midir?
- Bir SNP, bir popülasyonda ayrışan (segregating) olarak gözlemlenen tek nükleotit varyantıdır; bir nokta mutasyonundan kaynaklanmaktadır, ancak bu terim, varyantın tek bir bireyde yeni ortaya çıkan bir değişiklik olmaktan ziyade, kayda değer bir sıklıkta bulunduğunu vurgulamaktadır.