डेटा विवरण और सारांश सांख्यिकी
डेटा विवरण और सारांश सांख्यिकी जैवसांख्यिकी का वह हिस्सा है जो अवलोकनों के एक समूह को व्यवस्थित करने, संघनित करने और प्रस्तुत करने से संबंधित है ताकि इसकी आवश्यक विशेषताओं को एक नज़र में समझा जा सके। किसी भी अनुमान का प्रयास करने से पहले, अन्वेषक यह वर्णन करते हैं कि डेटा कैसे वितरित किया जाता है, वे कहाँ केंद्रित हैं, वे कितनी दूर तक फैले हुए हैं, और वे क्या आकार लेते हैं, संख्यात्मक सारांश और ग्राफिकल डिस्प्ले का उपयोग करते हुए।
Definition
डेटा विवरण और सारांश सांख्यिकी में संख्यात्मक और ग्राफिकल विधियाँ शामिल हैं जिनका उपयोग किसी डेटासेट के केंद्रीय स्थान, फैलाव, वितरण आकार और संरचना को चिह्नित करने के लिए किया जाता है, जनसंख्या के लिए अनुमानित सामान्यीकरण से पहले और स्वतंत्र रूप से।
Scope
यह क्षेत्र पाठक को जैवसांख्यिकी के वर्णनात्मक पक्ष से परिचित कराता है: समग्र रूप से वर्णनात्मक सांख्यिकी, डेटा का वितरण और सामान्यता, केंद्रीय प्रवृत्ति के माप, परिवर्तनशीलता के माप और डेटा विज़ुअलाइज़ेशन। यह इस बात का एक संदर्भ अवलोकन है कि स्वास्थ्य डेटा को कैसे संक्षेपित किया जाता है, न कि विश्लेषण या नैदानिक कार्रवाई के लिए एक नुस्खा।
Sub-topics
Core questions
- डेटा का केंद्र कहाँ है, और स्थान का कौन सा माप इसे सबसे अच्छी तरह से दर्शाता है?
- अवलोकन कितने भिन्न होते हैं, और उस फैलाव को कैसे मापा जाता है?
- वितरण का आकार क्या है, और क्या यह लगभग सामान्य है?
- डेटा को कैसे प्रदर्शित किया जा सकता है ताकि उसका पैटर्न, विषमता और आउटलायर दिखाई दें?
Key concepts
- वर्णनात्मक बनाम अनुमानित सांख्यिकी
- केंद्रीय प्रवृत्ति के माप (माध्य, माध्यिका, बहुलक)
- परिवर्तनशीलता के माप (सीमा, विचरण, मानक विचलन, अंतःचतुर्थक सीमा)
- वितरण आकार, विषमता और कुकुदता (kurtosis)
- सामान्यतः और उसका आकलन
- ग्राफिकल सारांश (हिस्टोग्राम, बॉक्स प्लॉट, स्कैटर प्लॉट)
- अन्वेषी डेटा विश्लेषण
Mechanisms
विवरण कई अवलोकनों को कुछ जानकारीपूर्ण मात्राओं और चित्रों में कम करके आगे बढ़ता है। स्थान का एक माप (माध्य, माध्यिका, या बहुलक) यह सारांशित करता है कि डेटा कहाँ स्थित है; फैलाव का एक माप (मानक विचलन, अंतःचतुर्थक सीमा, सीमा) यह सारांशित करता है कि वे उस स्थान के चारों ओर कितनी दूर तक फैले हुए हैं; और स्थान को फैलाव के साथ जोड़ना वितरण के आकार से मेल खाने के लिए चुना जाता है, जिसमें विषम डेटा के लिए माध्यिका और अंतःचतुर्थक सीमा को प्राथमिकता दी जाती है और लगभग सममित डेटा के लिए माध्य और मानक विचलन को प्राथमिकता दी जाती है। हिस्टोग्राम और बॉक्स प्लॉट जैसे ग्राफिकल डिस्प्ले आकार, विषमता और आउटलायर को प्रकट करते हैं जिन्हें एकल संख्याएँ छिपा सकती हैं, और साथ में ये उपकरण अन्वेषण चरण बनाते हैं जो औपचारिक अनुमान से पहले होता है।
Clinical relevance
लगभग हर नैदानिक अध्ययन, ऑडिट और निगरानी रिपोर्ट अपने प्रतिभागियों और मापों के वर्णनात्मक सारांश के साथ शुरू होती है, इसलिए इन सारांशों को समझना स्वास्थ्य-विज्ञान साहित्य को पढ़ने के लिए मौलिक है। यह क्षेत्र बताता है कि डेटा को कैसे चित्रित किया जाता है और इसका उद्देश्य साक्ष्य मूल्यांकन के लिए पृष्ठभूमि के रूप में है, न कि व्यक्तिगत निदान या उपचार निर्णयों के आधार के रूप में।
Epidemiology
वर्णनात्मक सारांश महामारी विज्ञान और नैदानिक अनुसंधान में पहला विश्लेषणात्मक कदम है, जिसका उपयोग अध्ययन आबादी, बेसलाइन तालिकाओं और संघों का अनुमान लगाने से पहले एक्सपोजर और परिणामों के वितरण को चिह्नित करने के लिए किया जाता है। सारांश उपायों और डिस्प्ले का चुनाव सीधे प्रभावित करता है कि किसी अध्ययन के डेटा को कितनी पारदर्शिता से संप्रेषित किया जाता है।
History
डेटा के संख्यात्मक सारांश की जड़ें अठारहवीं और उन्नीसवीं शताब्दी के खगोल विज्ञान और महत्वपूर्ण सांख्यिकी में गहरी हैं, लेकिन आधुनिक वर्णनात्मक टूलकिट बीसवीं शताब्दी में समेकित किया गया था। जॉन टुकी के एक्सप्लोरेटरी डेटा एनालिसिस (1977) ने विवरण को अपने आप में एक खोजी गतिविधि के रूप में फिर से परिभाषित किया और बॉक्स प्लॉट जैसे डिस्प्ले को लोकप्रिय बनाया, जबकि स्वास्थ्य विज्ञान में सांख्यिकीय शिक्षकों ने बाद में मानक सारांशों को संहिताबद्ध किया जो अब मेडिकल पत्रिकाओं में रिपोर्ट किए जाते हैं।
Debates
- माध्य और मानक विचलन को माध्यिका और अंतःचतुर्थक सीमा को कब रास्ता देना चाहिए?
- क्योंकि माध्य और मानक विचलन विषमता और आउटलायर द्वारा खींचे जाते हैं, गैर-सामान्य डेटा को माध्यिका और अंतःचतुर्थक सीमा के साथ सारांशित करने की एक लंबे समय से चली आ रही सिफारिश है; स्विच करने के लिए व्यावहारिक सीमा वितरण आकार और नमूना आकार पर निर्भर करती है।
Key figures
- John W. Tukey
- William S. Cleveland
- Douglas G. Altman
- J. Martin Bland
Related topics
Seminal works
- tukey-1977
- gupta-2019
Frequently asked questions
- वर्णनात्मक और अनुमानित सांख्यिकी के बीच क्या अंतर है?
- वर्णनात्मक सांख्यिकी वास्तव में एकत्र किए गए डेटा को सारांशित और प्रदर्शित करती है, जबकि अनुमानित सांख्यिकी उन डेटा का उपयोग व्यापक जनसंख्या के बारे में सामान्यीकरण करने के लिए करती है। विवरण पहले आता है और हाथ में नमूने से परे कोई संभाव्य दावा नहीं करता है।
- परीक्षण चलाने से पहले डेटा का वर्णन क्यों करें?
- सारांश और प्लॉट वितरण के आकार, फैलाव और किसी भी आउटलायर या त्रुटियों को प्रकट करते हैं, जो यह निर्धारित करते हैं कि बाद के विश्लेषण उचित हैं या नहीं और उनके परिणामों की व्याख्या कैसे की जानी चाहिए।