अनुक्रमण में गुणवत्ता नियंत्रण और त्रुटि सुधार
प्रत्येक अनुक्रमण रन (sequencing run) विभिन्न विश्वसनीयता के आधार कॉल (base calls) उत्पन्न करता है, इसलिए गुणवत्ता नियंत्रण और त्रुटि सुधार वे चरण हैं जो प्रति-आधार सटीकता (per-base accuracy) को निर्धारित करते हैं, कम गुणवत्ता वाले डेटा को फ़िल्टर या ट्रिम करते हैं, और रीड्स (reads) को असेंबल करने या वेरिएंट कॉलिंग (variant calling) के लिए उपयोग करने से पहले व्यवस्थित कलाकृतियों (systematic artefacts) को ठीक करते हैं। इनके बिना, डाउनस्ट्रीम जीनोमिक निष्कर्ष जीव विज्ञान के बजाय तकनीकी शोर से विकृत हो सकते हैं।
Definition
अनुक्रमण में गुणवत्ता नियंत्रण, रीड विश्वसनीयता का आकलन और सुधार है, जिसमें प्रति-आधार गुणवत्ता स्कोर, ट्रिमिंग और फ़िल्टरिंग, और त्रुटि-सुधार विधियों का उपयोग करके तकनीकी कलाकृतियों को हटाना या ठीक करना शामिल है ताकि असेंबली और वेरिएंट कॉलिंग माप त्रुटि के बजाय अंतर्निहित अनुक्रम को दर्शाए।
Scope
यह प्रविष्टि प्रति-आधार गुणवत्ता (फ्रेड) स्कोरिंग, अनुक्रमण रीड्स को प्रभावित करने वाली त्रुटियों और पूर्वाग्रहों के प्रकार, रीड ट्रिमिंग और फ़िल्टरिंग, और त्रुटि से वास्तविक संकेत को अलग करने में अतिरेक कवरेज (redundant coverage) की भूमिका को शामिल करती है। यह डेटा विश्वसनीयता के बारे में एक पद्धतिगत विषय है और नैदानिक या प्रयोगशाला प्रोटोकॉल प्रदान नहीं करता है।
Core questions
- एक व्यक्तिगत आधार कॉल की विश्वसनीयता को कैसे निर्धारित किया जाता है?
- अनुक्रमण रीड्स को किस प्रकार की त्रुटियां और पूर्वाग्रह प्रभावित करते हैं?
- ट्रिमिंग, फ़िल्टरिंग और अतिरेक कवरेज त्रुटियों के प्रभाव को कैसे कम करते हैं?
Key concepts
- फ्रेड गुणवत्ता स्कोर
- आधार-कॉल सटीकता
- रीड ट्रिमिंग और फ़िल्टरिंग
- अनुक्रमण त्रुटि प्रोफाइल
- कवरेज और आम सहमति त्रुटि में कमी
- एडेप्टर और गुणवत्ता ट्रिमिंग
- गलत-सकारात्मक वेरिएंट नियंत्रण
Mechanisms
अनुक्रमण प्लेटफॉर्म प्रत्येक आधार कॉल को एक फ्रेड गुणवत्ता स्कोर (Phred quality score) प्रदान करते हैं, जो कॉल के गलत होने की संभावना का एक लघुगणकीय अनुमान है, जिससे कम-आत्मविश्वास वाले आधारों को चिह्नित किया जा सकता है। गुणवत्ता-नियंत्रण उपकरण तब विश्लेषण से पहले एडेप्टर और कम गुणवत्ता वाले सिरों को ट्रिम करते हैं और अविश्वसनीय रीड्स को फ़िल्टर करते हैं। क्योंकि त्रुटियां आंशिक रूप से यादृच्छिक और आंशिक रूप से व्यवस्थित होती हैं, प्रत्येक स्थिति को कई बार अनुक्रमित करने से एक आम सहमति प्राप्त होती है ताकि अलग-थलग त्रुटियों को बहुमत से खारिज किया जा सके, जबकि त्रुटि प्रोफाइल का चित्रण आवर्ती कलाकृतियों को वास्तविक कम-आवृत्ति वाले वेरिएंट से अलग करने में मदद करता है। ये चरण डाउनस्ट्रीम वेरिएंट कॉलिंग में गलत सकारात्मकता को कम करते हैं और असेंबली सटीकता में सुधार करते हैं।
Clinical relevance
गुणवत्ता नियंत्रण और त्रुटि सुधार यह निर्धारित करते हैं कि जीनोमिक निष्कर्ष वास्तविक अनुक्रम या तकनीकी शोर को दर्शाते हैं, जो महत्वपूर्ण है जहाँ भी अनुक्रमण अनुसंधान या नैदानिक व्याख्या को सूचित करता है। यह प्रविष्टि डेटा विश्वसनीयता पर शैक्षिक संदर्भ सामग्री है और किसी विशिष्ट परीक्षण या नैदानिक निर्णय के लिए मार्गदर्शन का गठन नहीं करती है।
Evidence & guidelines
विधियों को नैदानिक दिशानिर्देशों के बजाय प्राथमिक उपकरण और विश्लेषण पत्रों के माध्यम से प्रलेखित किया गया है: इविंग एट अल। (1998) ने फ्रेड प्रति-आधार गुणवत्ता स्कोर स्थापित किया, बोलगर एट अल। (2014) एक व्यापक रूप से उपयोग किया जाने वाला रीड-ट्रिमिंग उपकरण है, और मा एट अल। (2019) गहरे अनुक्रमण डेटा में त्रुटि प्रोफाइल को दर्शाता है; सिम्स एट अल। (2014) जैसी समीक्षाएं कवरेज को त्रुटि नियंत्रण से जोड़ती हैं।
History
प्रति-आधार गुणवत्ता स्कोरिंग को 1998 में फ्रेड कार्यक्रम के साथ औपचारिक रूप दिया गया था, जिससे अनुक्रमण डेटा को आधार-कॉल आत्मविश्वास का एक मानकीकृत, व्याख्या योग्य माप मिला जो सार्वभौमिक हो गया। जैसे-जैसे उच्च-थ्रूपुट प्लेटफॉर्म ने बड़ी मात्रा में रीड्स का उत्पादन किया, 2010 के दशक में समर्पित ट्रिमिंग और फ़िल्टरिंग उपकरण उभरे, और त्रुटि प्रोफाइल के विस्तृत विश्लेषण ने यह परिष्कृत किया कि वास्तविक कम-आवृत्ति वाले वेरिएंट को व्यवस्थित अनुक्रमण कलाकृतियों से कैसे अलग किया जाता है।
Key figures
- Phil Green
- Brent Ewing
- Björn Usadel
Related topics
Seminal works
- ewing-1998
- bolger-2014
- ma-2019
Frequently asked questions
- फ्रेड गुणवत्ता स्कोर क्या है?
- यह अनुमानित संभावना का एक लघुगणकीय माप है कि एक आधार कॉल गलत है; उदाहरण के लिए, 30 का फ्रेड स्कोर लगभग 1000 में 1 त्रुटि की संभावना से मेल खाता है, इसलिए उच्च स्कोर अधिक विश्वसनीय आधार कॉल को इंगित करते हैं।
- एक ही स्थिति को कई बार अनुक्रमित करने से त्रुटियां कैसे कम होती हैं?
- जब एक स्थिति कई स्वतंत्र रीड्स द्वारा कवर की जाती है, तो व्यक्तिगत रीड्स में यादृच्छिक त्रुटियों को बहुमत से खारिज किया जा सकता है, इसलिए रीड्स में एक आम सहमति लेने से किसी भी एकल रीड की तुलना में अधिक सटीक आधार कॉल प्राप्त होता है।