जीनोम असेंबली एल्गोरिदम और विधियाँ
जीनोम असेंबली अनुक्रमण द्वारा उत्पादित कई अतिव्यापी छोटी या लंबी रीड्स से जीनोम के पुनर्निर्माण की एक कम्प्यूटेशनल समस्या है, क्योंकि वर्तमान में कोई भी तकनीक पूरे गुणसूत्र को सिरे से सिरे तक नहीं पढ़ सकती है। इसे हल करने वाले एल्गोरिदम यह निर्धारित करते हैं कि कच्चे अनुक्रम डेटा से जीनोम को कितनी पूर्णता और सटीकता से पुनर्प्राप्त किया जा सकता है।
Definition
जीनोम असेंबली अनुक्रमण रीड्स के बीच ओवरलैप्स का पता लगाकर और उन्हें लंबी सन्निहित अनुक्रमों (कॉन्टिग्स) में विलय करके जीनोम के अनुक्रम का एल्गोरिथम पुनर्निर्माण है, जिन्हें बाद में स्कैफोल्ड्स में व्यवस्थित और उन्मुख किया जा सकता है, या तो बिना (डी नोवो) या मौजूदा संदर्भ के साथ (संदर्भ-निर्देशित)।
Scope
यह प्रविष्टि दो प्रमुख एल्गोरिथम प्रतिमानों, ओवरलैप-लेआउट-कंसेंसस और डी ब्रुइजन ग्राफ, डी नोवो असेंबली और संदर्भ-निर्देशित असेंबली के बीच अंतर, और कॉन्टिग्स और स्कैफोल्ड्स की अवधारणाओं को शामिल करती है। यह कम्प्यूटेशनल पुनर्निर्माण चरण पर केंद्रित एक कार्यप्रणाली विषय है और इसमें प्रयोगशाला प्रोटोकॉल या नैदानिक उपयोग शामिल नहीं हैं।
Core questions
- अनुक्रमण रीड्स को सीधे पूरे गुणसूत्रों के रूप में पढ़ने के बजाय उन्हें असेंबल क्यों किया जाना चाहिए?
- ओवरलैप-लेआउट-कंसेंसस और डी ब्रुइजन ग्राफ दृष्टिकोण कैसे भिन्न हैं?
- असेंबली की पूर्णता को क्या सीमित करता है, और दोहराव तथा रीड की लंबाई का क्या महत्व है?
Key concepts
- ओवरलैप-लेआउट-कंसेंसस असेंबली
- डी ब्रुइजन ग्राफ असेंबली
- k-mers
- कॉन्टिग्स और स्कैफोल्ड्स
- डी नोवो बनाम संदर्भ-निर्देशित असेंबली
- दोहराव का समाधान
- असेंबली सन्निधि (जैसे, N50)
Mechanisms
असेंबली एल्गोरिदम रीड्स के बीच ओवरलैप्स का उपयोग करके जीनोम का पुनर्निर्माण करते हैं। ओवरलैप-लेआउट-कंसेंसस विधियाँ रीड्स के बीच युग्मित ओवरलैप्स की गणना करती हैं, उन्हें एक लेआउट में व्यवस्थित करती हैं, और एक कंसेंसस अनुक्रम प्राप्त करती हैं; यह दृष्टिकोण लंबी रीड्स के लिए उपयुक्त था और इसने प्रारंभिक संपूर्ण-जीनोम शॉटगन असेंबली को आधार प्रदान किया। डी ब्रुइजन ग्राफ विधियाँ इसके बजाय रीड्स को निश्चित-लंबाई वाले उप-अनुक्रमों (k-mers) में तोड़ती हैं और जीनोम को अतिव्यापी k-mers के ग्राफ के माध्यम से पथों के रूप में दर्शाती हैं, जो उच्च-थ्रूपुट अनुक्रमण द्वारा उत्पादित बहुत बड़ी संख्या में छोटी रीड्स के लिए कुशलता से स्केल करता है। रीड की लंबाई से लंबी दोहराई जाने वाली क्षेत्र अस्पष्टताएँ पैदा करते हैं जो असेंबली को खंडित करती हैं, इसलिए उन्हें हल करने और कॉन्टिग्स को स्कैफोल्ड्स में जोड़ने के लिए लंबी रीड्स और युग्मित जानकारी का उपयोग किया जाता है।
Clinical relevance
जीनोम असेंबली कम्प्यूटेशनल आधार है जो कच्चे अनुक्रमण डेटा को सन्निहित अनुक्रमों में बदलता है जिसका उपयोग संदर्भ जीनोम बनाने और पहले से अज्ञात जीवों का अध्ययन करने के लिए किया जाता है। यह प्रविष्टि संदर्भ और शैक्षिक सामग्री है जो बताती है कि असेंबली कैसे काम करती है और किसी भी नैदानिक या निदान प्रक्रिया के लिए मार्गदर्शन नहीं है।
Evidence & guidelines
कार्यप्रणाली साहित्य दिशानिर्देश-आधारित होने के बजाय प्राथमिक और समीक्षा-आधारित है: इडूरी और वाटरमैन (1995) ने एक ग्राफ फॉर्मूलेशन पेश किया जो डी ब्रुइजन असेंबली का पूर्वाभास कराता था, ज़र्बिनो और बिर्नी (2008) ने वेलवेट के साथ छोटी रीड्स के लिए डी ब्रुइजन ग्राफ असेंबली की स्थापना की, और मानव जीनोम की संपूर्ण-जीनोम शॉटगन असेंबली (वेंटर एट अल।, 2001) बड़े पैमाने पर ओवरलैप-लेआउट-कंसेंसस प्रतिमान का उदाहरण है।
History
प्रारंभिक असेंबलर ने ओवरलैप-लेआउट-कंसेंसस विधियों का उपयोग किया जो सैंगर अनुक्रमण की अपेक्षाकृत लंबी रीड्स के लिए अच्छी तरह से अनुकूल थीं, जैसा कि 2001 में मानव जीनोम की संपूर्ण-जीनोम शॉटगन असेंबली में हुआ था। छोटी-रीड उच्च-थ्रूपुट अनुक्रमण में बदलाव ने डी ब्रुइजन ग्राफ विधियों को, जो 1990 के दशक के मध्य से ग्राफ फॉर्मूलेशन द्वारा अनुमानित थीं और वेलवेट (2008) जैसे उपकरणों में साकार हुईं, प्रमुख प्रतिमान बना दिया, जबकि लंबी रीड्स की बाद में वापसी ने दोहराव को हल करने के लिए ओवरलैप-आधारित दृष्टिकोणों में रुचि को नवीनीकृत किया।
Key figures
- Michael Waterman
- Daniel Zerbino
- Ewan Birney
- Eugene Myers
Related topics
Seminal works
- idury-1995
- zerbino-2008
- venter-2001-asm
Frequently asked questions
- डी नोवो और संदर्भ-निर्देशित असेंबली में क्या अंतर है?
- डी नोवो असेंबली बिना किसी पूर्व अनुक्रम का उपयोग किए, केवल रीड्स से जीनोम का पुनर्निर्माण करती है, जबकि संदर्भ-निर्देशित असेंबली पुनर्निर्माण में सहायता के लिए रीड्स को मौजूदा संदर्भ जीनोम के साथ संरेखित या स्कैफोल्ड करती है।
- दोहराई जाने वाली क्षेत्रों को असेंबल करना मुश्किल क्यों है?
- जब कोई दोहराव उसे कवर करने वाली रीड्स से लंबा होता है, तो एल्गोरिथम यह नहीं बता सकता कि रीड किस प्रति से आई है, जिससे अस्पष्ट पथ बनते हैं जो असेंबली को छोटे टुकड़ों में तोड़ देते हैं; लंबी रीड्स इन दोहरावों को हल करने में मदद करती हैं।