Genom Birleştirme Algoritmaları ve Yöntemleri
Genom birleştirme, mevcut hiçbir teknolojinin tüm bir kromozomu uçtan uca okuyamaması nedeniyle, dizileme (sequencing) ile üretilen çok sayıda örtüşen kısa veya uzun okumalardan bir genomun yeniden yapılandırılmasına yönelik hesaplamalı bir problemdir. Bu problemi çözen algoritmalar, bir genomun ham dizi verilerinden ne kadar eksiksiz ve doğru bir şekilde elde edilebileceğini belirlemektedir.
Tanım
Genom birleştirme, dizileme okumaları arasındaki örtüşmeleri tespit ederek ve bunları daha uzun bitişik diziler (kontigler) halinde birleştirerek bir genomun dizisinin algoritmik olarak yeniden yapılandırılmasıdır; bu kontigler daha sonra, mevcut bir referans olmaksızın (de novo) veya referansla (referans güdümlü) iskeleler (scaffold) halinde sıralanabilir ve yönlendirilebilir.
Kapsam
Bu madde, iki baskın algoritmik paradigmayı, yani örtüşme-düzenleme-konsensüs (overlap-layout-consensus) ve de Bruijn grafını, de novo birleştirme ile referans güdümlü birleştirme arasındaki ayrımı ve kontig (contig) ile iskele (scaffold) kavramlarını kapsamaktadır. Konu, hesaplamalı yeniden yapılandırma adımına odaklanan metodolojik bir nitelik taşımakta olup, laboratuvar protokollerini veya klinik kullanımı ele almamaktadır.
Temel sorular
- Dizileme okumaları neden doğrudan tüm kromozomlar olarak okunmak yerine birleştirilmelidir?
- Örtüşme-düzenleme-konsensüs ve de Bruijn graf yaklaşımları nasıl farklılık göstermektedir?
- Birleştirme eksiksizliğini ne sınırlamaktadır ve tekrarlar ile okuma uzunluğu nasıl bir önem taşımaktadır?
Anahtar kavramlar
- Örtüşme-düzenleme-konsensüs birleştirme
- De Bruijn graf birleştirme
- k-merler
- Kontigler ve iskeleler
- De novo ve referans güdümlü birleştirme
- Tekrar çözünürlüğü
- Birleştirme sürekliliği (örn. N50)
Mekanizmalar
Birleştirme algoritmaları, okumalar arasındaki örtüşmeleri kullanarak bir genomu yeniden yapılandırmaktadır. Örtüşme-düzenleme-konsensüs yöntemleri, okumalar arasındaki ikili örtüşmeleri hesaplamakta, bunları bir düzene yerleştirmekte ve bir konsensüs dizisi türetmektedir; bu yaklaşım, daha uzun okumalara uygun olup, erken dönem tüm genom shotgun birleştirmelerinin temelini oluşturmuştur. De Bruijn graf yöntemleri ise okumaları sabit uzunluktaki alt dizilere (k-merler) ayırmakta ve genomu, örtüşen k-merlerden oluşan bir graf üzerindeki yollar olarak temsil etmektedir. Bu yöntem, yüksek verimli dizileme (high-throughput sequencing) ile üretilen çok sayıdaki kısa okumaya verimli bir şekilde ölçeklenebilmektedir. Okuma uzunluğundan daha uzun tekrarlayan bölgeler, birleştirmeleri parçalayan belirsizlikler yaratmaktadır; bu nedenle, bu belirsizlikleri çözmek ve kontigleri iskelelere bağlamak için daha uzun okumalar ve eşleştirilmiş bilgiler kullanılmaktadır.
Klinik önem
Genom birleştirme, ham dizileme verilerini bitişik dizilere dönüştüren hesaplamalı bir temeldir; bu diziler referans genomları oluşturmak ve daha önce karakterize edilmemiş organizmaları incelemek için kullanılmaktadır. Bu madde, birleştirmenin nasıl çalıştığını açıklayan bir referans ve eğitim materyalidir ve herhangi bir klinik veya tanısal prosedür için bir rehber niteliği taşımamaktadır.
Kanıt ve kılavuzlar
Metodolojik literatür, kılavuz tabanlı olmaktan ziyade birincil ve derleme tabanlıdır: Idury ve Waterman (1995), de Bruijn birleştirmesini önceden haber veren bir graf formülasyonu sunmuştur. Zerbino ve Birney (2008), Velvet ile kısa okumalar için de Bruijn graf birleştirmesini kurmuştur. İnsan genomunun tüm genom shotgun birleştirmesi (Venter ve ark., 2001) ise örtüşme-düzenleme-konsensüs paradigmasını büyük ölçekte örneklemektedir.
Tarihçe
Erken dönem birleştiriciler, Sanger dizilemesinin nispeten uzun okumalarına iyi uyan örtüşme-düzenleme-konsensüs yöntemlerini kullanmıştır; tıpkı 2001'deki insan genomunun tüm genom shotgun birleştirmesinde olduğu gibi. Kısa okumalı yüksek verimli dizilemeye geçiş, 1990'ların ortalarından itibaren graf formülasyonlarıyla öngörülen ve Velvet (2008) gibi araçlarda gerçekleştirilen de Bruijn graf yöntemlerini baskın paradigma haline getirmiştir. Daha sonra uzun okumaların yeniden ortaya çıkması ise tekrarları çözmek için örtüşme tabanlı yaklaşımlara olan ilgiyi yeniden canlandırmıştır.
Öne çıkan isimler
- Michael Waterman
- Daniel Zerbino
- Ewan Birney
- Eugene Myers
İlgili konular
Temel eserler
- idury-1995
- zerbino-2008
- venter-2001-asm
Sıkça sorulan sorular
- De novo ve referans güdümlü birleştirme arasındaki fark nedir?
- De novo birleştirme, bir genomu yalnızca okumalardan, önceden var olan bir dizi kullanmadan yeniden yapılandırmaktadır; oysa referans güdümlü birleştirme, yeniden yapılandırmaya yardımcı olmak için okumaları mevcut bir referans genoma karşı hizalamakta veya iskelelemektedir.
- Tekrarlayan bölgeleri birleştirmek neden zordur?
- Bir tekrar, onu kapsayan okumalardan daha uzun olduğunda, algoritma bir okumanın hangi kopyadan geldiğini ayırt edememektedir; bu durum, birleştirmeyi daha kısa parçalara bölen belirsiz yollar yaratmaktadır. Daha uzun okumalar bu tekrarları çözmeye yardımcı olmaktadır.