डेटा वितरण और सामान्यता
एक चर का वितरण बताता है कि उसके मान संभावनाओं की सीमा में कैसे फैले हुए हैं, और कई वर्णनात्मक और अनुमानित तरीके इस बात पर निर्भर करते हैं कि वह वितरण कैसा दिखता है। सामान्यता — कि क्या डेटा सममित, घंटी के आकार के सामान्य वितरण का अनुसरण करता है — स्वास्थ्य अनुसंधान में सबसे अधिक जांची जाने वाली वितरण संबंधी धारणा है, क्योंकि यह पैरामीट्रिक और गैर-पैरामीट्रिक सारांशों और परीक्षणों के बीच चुनाव को नियंत्रित करती है।
Definition
एक सांख्यिकीय वितरण एक चर के संभावित मानों की सापेक्ष आवृत्ति या संभावना का वर्णन करता है; सामान्यता का अर्थ गाऊसी (सामान्य) वितरण के अनुरूपता से है, एक सममित घंटी के आकार का रूप जिसका ग्राफिक रूप से और औपचारिक परीक्षणों के साथ आकलन किया जाता है ताकि यह तय किया जा सके कि पैरामीट्रिक तरीके उपयुक्त हैं या नहीं।
Scope
यह प्रविष्टि वितरण के आकार (समरूपता, विषमता, कर्टोसिस), सामान्य वितरण और यह क्यों मायने रखता है, और ग्राफिकल निरीक्षण और औपचारिक परीक्षणों के माध्यम से सामान्यता का आकलन कैसे किया जाता है, को शामिल करती है। यह एक कार्यप्रणाली संबंधी संदर्भ है और नैदानिक मार्गदर्शन प्रदान नहीं करता है।
Core questions
- चर के वितरण का आकार क्या है, और क्या यह सममित या विषम है?
- क्या इस चर के लिए सामान्यता की धारणा उचित है?
- कौन से ग्राफिकल और औपचारिक उपकरण सामान्यता का सबसे अच्छा आकलन करते हैं, और वे छोटे या बड़े नमूनों के साथ कैसा व्यवहार करते हैं?
Key concepts
- सामान्य (गाऊसी) वितरण
- विषमता और कर्टोसिस
- ग्राफिकल आकलन (हिस्टोग्राम, Q-Q प्लॉट)
- शापिरो-विल्क परीक्षण
- कोलमोगोरोव-स्मिरनोव परीक्षण
- पैरामीट्रिक बनाम गैर-पैरामीट्रिक चुनाव
- सामान्यतः परीक्षणों की नमूना-आकार संवेदनशीलता
Key theories
- केंद्रीय सीमा प्रमेय
- केंद्रीय सीमा प्रमेय कहता है कि, पर्याप्त बड़े नमूने के लिए, माध्य का नमूना वितरण अंतर्निहित चर के आकार की परवाह किए बिना एक सामान्य वितरण के करीब पहुंचता है। यही कारण है कि सामान्य-सिद्धांत विधियाँ अक्सर माध्य के लिए उपयोगी रहती हैं, भले ही कच्चा डेटा सामान्य न हो।
Mechanisms
सामान्यतः, सामान्यता का आकलन दो पूरक तरीकों से किया जाता है। ग्राफिकल विधियाँ — हिस्टोग्राम और क्वांटाइल-क्वांटाइल (Q-Q) प्लॉट — विषमता, भारी पूंछ या द्विमूल्यता जैसे विचलन को सीधे दर्शाती हैं। औपचारिक परीक्षण, जिनमें शापिरो-विल्क परीक्षण सबसे व्यापक रूप से उपयोग किए जाने वाले परीक्षणों में से एक है, एक सामान्य मॉडल के तहत डेटा को देखने की संभावना लौटाते हैं। चूंकि ये परीक्षण नमूना आकार के साथ शक्ति प्राप्त करते हैं, वे बड़े नमूनों में मामूली विचलन को इंगित करते हैं और छोटे नमूनों में महत्वपूर्ण विचलन को छोड़ देते हैं, इसलिए ग्राफिकल निरीक्षण और गैर-सामान्यतः के व्यावहारिक परिणामों को किसी भी परीक्षण परिणाम के साथ तौला जाता है। जब रुचि की मात्रा माध्य होती है, तो केंद्रीय सीमा प्रमेय अक्सर गैर-सामान्य कच्चे डेटा के लिए भी सामान्य-सिद्धांत विधियों को उचित ठहराता है।
Clinical relevance
क्या एक बायोमार्कर, अस्पताल में रहने की अवधि, या स्कोर को सामान्य माना जाता है, यह निर्धारित करता है कि इसे नैदानिक साहित्य में कैसे संक्षेपित और विश्लेषण किया जाता है, इसलिए सामान्यता का आकलन करना एक अध्ययन के तरीकों का मूल्यांकन करने का हिस्सा है। यह प्रविष्टि वितरण संबंधी धारणाओं के आकलन का वर्णन करती है और व्यक्तिगत निदान या उपचार निर्णयों का आधार नहीं है।
Epidemiology
कई जैविक और नैदानिक माप दाहिनी ओर विषम होते हैं (उदाहरण के लिए, हार्मोन का स्तर, लागत और प्रतीक्षा समय), इसलिए सामान्यता को नहीं माना जा सकता है और इसकी नियमित रूप से जांच की जाती है। यह निर्णय आकार देता है कि परिणाम माध्य और मानक विचलन के साथ या माध्यिका और श्रेणियों के साथ रिपोर्ट किए जाते हैं, और क्या पैरामीट्रिक या गैर-पैरामीट्रिक परीक्षणों का उपयोग किया जाता है।
History
सामान्य वितरण का विकास अठारहवीं और उन्नीसवीं शताब्दी में डी मोइव्रे, लाप्लास और गॉस के कार्यों में हुआ, और त्रुटियों के सिद्धांत और केंद्रीय सीमा प्रमेय के माध्यम से यह सांख्यिकी के लिए केंद्रीय बन गया। धारणा की जांच के लिए औपचारिक उपकरण बीसवीं शताब्दी में आए, जिसमें शापिरो और विल्क का 1965 का सामान्यता के लिए विश्लेषण-ऑफ-वेरिएंस परीक्षण अनुप्रयुक्त कार्य में एक मानक प्रक्रिया बन गया।
Debates
- क्या सामान्यता का आकलन औपचारिक परीक्षणों या ग्राफिकल निरीक्षण से किया जाना चाहिए?
- औपचारिक सामान्यता परीक्षण नमूना आकार के प्रति संवेदनशील होते हैं — बड़े नमूनों में मामूली विचलन को अस्वीकार करते हैं और छोटे नमूनों में महत्वपूर्ण विचलन का पता लगाने में विफल रहते हैं — इसलिए कई कार्यप्रणाली विशेषज्ञ सलाह देते हैं कि ग्राफिकल आकलन और नियोजित विश्लेषण की व्यावहारिक मजबूती निर्णय का मार्गदर्शन करे, न कि केवल एक परीक्षण का पी-मान।
Key figures
- Samuel S. Shapiro
- Martin B. Wilk
- Carl Friedrich Gauss
Related topics
Seminal works
- shapiro-wilk-1965
- kwak-2017
- ghasemi-2012
Frequently asked questions
- सामान्यतः क्यों मायने रखती है?
- कई सामान्य सारांश (माध्य, मानक विचलन) और परीक्षण (टी-परीक्षण, एनोवा) लगभग सामान्य डेटा मानते हैं; जब यह धारणा विफल हो जाती है, तो वे माप भ्रामक हो सकते हैं और गैर-पैरामीट्रिक या रूपांतरित विकल्प अधिक उपयुक्त हो सकते हैं।
- क्या एक महत्वपूर्ण शापिरो-विल्क परीक्षण एक पैरामीट्रिक विधि को छोड़ने का पर्याप्त कारण है?
- अपने आप में नहीं। परीक्षण बड़े नमूनों में बहुत संवेदनशील हो जाता है और छोटे नमूनों में शक्तिहीन हो जाता है, इसलिए विचलन का आकार, Q-Q प्लॉट पर देखा गया आकार, और नियोजित विश्लेषण की मजबूती सभी पर विचार किया जाना चाहिए।