पहचान-रहित करना और गोपनीयता-संरक्षण डेटा विश्लेषण
पहचान-रहित करना (De-identification) एक ऐसी प्रक्रिया है जिसमें स्वास्थ्य डेटासेट में व्यक्तियों की पहचान कर सकने वाली जानकारी को हटा दिया जाता है या रूपांतरित कर दिया जाता है, ताकि डेटा का उपयोग और साझाकरण कम गोपनीयता जोखिम के साथ किया जा सके। गोपनीयता-संरक्षण डेटा विश्लेषण (Privacy-preserving data analysis) विधियों का एक व्यापक समूह है जो संवेदनशील डेटा पर उपयोगी गणना की अनुमति देता है, जबकि यह सीमित करता है कि किसी भी व्यक्ति के बारे में कितनी जानकारी प्राप्त की जा सकती है। ये दोनों मिलकर स्वास्थ्य डेटा को अनुसंधान और संचालन में सहायता करने की अनुमति देते हैं, जबकि पुनः-पहचान के जोखिम को सीमित करते हैं।
Definition
पहचान-रहित करना (De-identification) डेटा से पहचान संबंधी जानकारी को हटाना या बदलना है ताकि व्यक्तियों की आसानी से पहचान न हो सके; गोपनीयता-संरक्षण डेटा विश्लेषण (privacy-preserving data analysis) में ऐसी तकनीकें (औपचारिक अनामिकता मॉडल और शोर-आधारित या वितरित गणना विधियों सहित) शामिल हैं जो संवेदनशील डेटा के विश्लेषण को सक्षम करती हैं, जबकि किसी भी व्यक्ति के बारे में प्रकट की गई जानकारी को सीमित करती हैं।
Scope
यह प्रविष्टि पहचान-रहित करने के औचित्य, मुख्य औपचारिक गोपनीयता मॉडल (जैसे k-अनामिकता और उसके परिष्करण, और विभेदक गोपनीयता), पुनः-पहचान के लगातार जोखिम, और डेटा को केंद्रीकृत किए बिना उस पर गणना करने वाले उभरते दृष्टिकोणों (जैसे फेडरेटेड लर्निंग) को शामिल करती है। यह इन्हें संदर्भ और शिक्षा के लिए पद्धतिगत अवधारणाओं के रूप में मानती है और किसी विशिष्ट डेटासेट को पहचान-रहित करने के लिए एक प्रोटोकॉल या कानूनी पर्याप्तता की गारंटी नहीं है।
Core questions
- एक रिकॉर्ड को क्या पहचान योग्य बनाता है, और पहचान योग्यता को कैसे कम किया जा सकता है?
- k-अनामिकता और विभेदक गोपनीयता जैसे मॉडल क्या औपचारिक गारंटी प्रदान करते हैं?
- पहचान-रहित डेटा को पुनः-पहचानने का जोखिम कितना वास्तविक है?
- डेटा को केंद्रीकृत या सीधे साझा किए बिना कैसे विश्लेषण किया जा सकता है?
- गोपनीयता सुरक्षा और डेटा उपयोगिता के बीच संतुलन को कैसे प्रबंधित किया जाता है?
Key concepts
- प्रत्यक्ष पहचानकर्ता बनाम अर्ध-पहचानकर्ता
- पुनः-पहचान जोखिम
- उपयोगिता-गोपनीयता संतुलन
- सामान्यीकरण और दमन
- शोर जोड़ना और यादृच्छिक प्रतिक्रिया
- सिंथेटिक डेटा
- फेडरेटेड और वितरित विश्लेषण
- सुरक्षित गणना
Key theories
- k-अनामिकता
- एक डेटासेट k-अनामिकता को संतुष्ट करता है यदि प्रत्येक रिकॉर्ड अर्ध-पहचानकर्ताओं के एक सेट के संबंध में कम से कम k-1 अन्य से अप्रभेद्य है, ताकि किसी भी व्यक्ति को k से कम लोगों में से अलग नहीं किया जा सके। इसने इस अंतर्ज्ञान को औपचारिक रूप दिया कि प्रतीत होने वाले हानिरहित गुणों के संयोजन लोगों की पहचान कर सकते हैं।
- l-विविधता
- k-अनामिकता का एक विस्तार जिसमें यह आवश्यक है कि अप्रभेद्य रिकॉर्ड के प्रत्येक समूह में किसी भी संवेदनशील विशेषता के लिए कम से कम l अच्छी तरह से प्रतिनिधित्व वाले मान हों, जो इस कमजोरी को दूर करता है कि k-अनाम डेटा अभी भी संवेदनशील मानों को लीक कर सकता है जब एक समूह सजातीय हो।
- विभेदक गोपनीयता
- एक औपचारिक गारंटी कि विश्लेषण का आउटपुट लगभग अपरिवर्तित रहता है चाहे किसी एक व्यक्ति का डेटा शामिल हो या नहीं, कैलिब्रेटेड यादृच्छिक शोर द्वारा प्राप्त किया जाता है, ताकि परिणाम से किसी एक व्यक्ति के बारे में बहुत कम अनुमान लगाया जा सके।
Mechanisms
पहचान-रहित करना प्रत्यक्ष पहचानकर्ताओं को हटाकर और अर्ध-पहचानकर्ताओं (जैसे आयु, ज़िप कोड और तिथियां) को सामान्यीकृत या दबाकर पहचान योग्यता को कम करता है, जो संयोजन में व्यक्तियों को अलग कर सकते हैं। औपचारिक मॉडल इस प्रक्रिया को परीक्षण योग्य गारंटी देते हैं: k-अनामिकता (k-anonymity) यह आवश्यक करती है कि प्रत्येक रिकॉर्ड अर्ध-पहचानकर्ताओं पर कम से कम k-1 अन्य के साथ घुलमिल जाए (स्वीनी, 2002), l-विविधता (l-diversity) प्रत्येक समूह के भीतर संवेदनशील मूल्यों में विविधता सुनिश्चित करके इसे मजबूत करती है (मचानावाज्झला एट अल।, 2007), और विभेदक गोपनीयता (differential privacy) कैलिब्रेटेड शोर जोड़कर विश्लेषण पर किसी एक व्यक्ति के प्रभाव को सीमित करती है (ड्वॉर्क एट अल।, 2006)। चूंकि विवरण हटाने से विश्लेषणात्मक उपयोगिता कम हो जाती है, इसलिए प्रत्येक विधि गोपनीयता और उपयोगिता के बीच एक संतुलन बनाती है। एक पूरक दिशा डेटा को विकेंद्रीकृत रखती है: फेडरेटेड लर्निंग (federated learning) अंतर्निहित रिकॉर्ड को स्थानांतरित किए बिना संस्थानों में मॉडल को प्रशिक्षित करती है, जिससे पहचान योग्य डेटा के संपर्क को सीमित किया जाता है (रीके एट अल।, 2020)। इनमें से कोई भी दृष्टिकोण जोखिम-मुक्त नहीं है, और पुनः-पहचान कभी-कभी अपूर्ण या विरल रूप से नमूना किए गए डेटासेट पर भी सफल हो सकती है (रोचर एट अल।, 2019)।
Clinical relevance
पहचान-रहित करना और गोपनीयता-संरक्षण विश्लेषण ही हैं जो अनुसंधान, गुणवत्ता माप और सार्वजनिक स्वास्थ्य के लिए नैदानिक डेटा के बड़े पैमाने पर द्वितीयक उपयोग को व्यापक रूप से पहचान योग्य रिकॉर्ड को उजागर किए बिना संभव बनाते हैं। अवशिष्ट पुनः-पहचान जोखिम के बारे में जागरूकता यह बताती है कि ऐसे डेटा को कैसे नियंत्रित और साझा किया जाता है (रोचर एट अल।, 2019)। यह प्रविष्टि संदर्भ और शिक्षा के लिए विधियों का वर्णन करती है और किसी विशेष डेटासेट को पर्याप्त रूप से पहचान-रहित या कानूनी रूप से अनुपालन के रूप में प्रमाणित नहीं करती है।
Evidence & guidelines
यहां उद्धृत औपचारिक गोपनीयता मॉडल मूलभूत पद्धतिगत योगदान हैं (स्वीनी, 2002; मचानावाज्झला एट अल।, 2007; ड्वॉर्क एट अल।, 2006)। अनुभवजन्य कार्य दर्शाता है कि कुछ शर्तों के तहत पुनः-पहचान अभी भी संभव है (रोचर एट अल।, 2019), जो फेडरेटेड लर्निंग (Rieke et al., 2020) जैसे वितरित दृष्टिकोणों के चल रहे विकास को प्रेरित करता है। पहचान-रहित करने के लिए नियामक मानक (उदाहरण के लिए, HIPAA सेफ हार्बर और विशेषज्ञ निर्धारण विधियाँ) आधिकारिक नियमों में अलग से परिभाषित किए गए हैं और अनुपालन उद्देश्यों के लिए सीधे परामर्श किए जाने चाहिए।
History
सांख्यिकीय प्रकटीकरण सीमा का आधिकारिक आंकड़ों में एक लंबा इतिहास रहा है, लेकिन विस्तृत इलेक्ट्रॉनिक रिकॉर्ड और सार्वजनिक डेटासेट के प्रसार के साथ स्वास्थ्य-डेटा पहचान-रहित करने की आवश्यकता बढ़ गई। स्वीनी की k-अनामिकता (2002) ने इस क्षेत्र को एक प्रभावशाली औपचारिक मॉडल दिया और प्रसिद्ध रूप से यह दर्शाया कि कैसे अर्ध-पहचानकर्ता कथित रूप से गुमनाम रिकॉर्ड को पुनः-पहचान सकते हैं। l-विविधता (2007) जैसे बाद के परिष्करणों ने इसकी सीमाओं को संबोधित किया, और विभेदक गोपनीयता (2006) ने गोपनीयता को जारी किए गए डेटासेट के बजाय विश्लेषण की एक विशेषता के रूप में फिर से परिभाषित किया। हाल के कार्यों ने स्थायी पुनः-पहचान जोखिम (2019) को उजागर किया है और विकेंद्रीकृत विश्लेषण विधियों (2020) को भी विकसित किया है।
Debates
- क्या पहचान-रहित स्वास्थ्य डेटा को कभी भी सुरक्षित रूप से गुमनाम माना जा सकता है?
- कुछ का तर्क है कि सावधानीपूर्वक पहचान-रहित करना व्यवहार में पुनः-पहचान को नगण्य बनाता है, जबकि अन्य दिखाते हैं कि पुनः-पहचान अपूर्ण डेटासेट पर भी सफल हो सकती है, जिसका अर्थ है कि अनामिकता एक निश्चित गारंटी के बजाय डिग्री और संदर्भ का मामला है।
Related topics
Seminal works
- sweeney-2002
- dwork-2006
- machanavajjhala-2007
Frequently asked questions
- k-अनामिकता और विभेदक गोपनीयता में क्या अंतर है?
- k-अनामिकता जारी किए गए डेटासेट की एक विशेषता है, जो यह सुनिश्चित करती है कि प्रत्येक रिकॉर्ड अर्ध-पहचानकर्ताओं पर कम से कम k-1 अन्य से अप्रभेद्य है। विभेदक गोपनीयता एक विश्लेषण या रिलीज तंत्र की एक विशेषता है, जो कैलिब्रेटेड शोर जोड़कर यह सीमित करती है कि किसी एक व्यक्ति की उपस्थिति आउटपुट को कितना बदल सकती है। वे विभिन्न तरीकों से गोपनीयता की रक्षा करते हैं और विभिन्न उद्देश्यों के लिए उपयोग किए जा सकते हैं।
- क्या पहचान-रहित करना पुनः-पहचान के जोखिम को पूरी तरह से समाप्त कर देता है?
- नहीं। पहचान-रहित करना जोखिम को कम करता है लेकिन हमेशा समाप्त नहीं करता है; अनुसंधान से पता चला है कि व्यक्तियों को कभी-कभी पहचान-रहित या अपूर्ण डेटासेट से पुनः-पहचाना जा सकता है, इसलिए अवशिष्ट जोखिम का आकलन और प्रबंधन किया जाना चाहिए, न कि इसे शून्य माना जाना चाहिए।