ScholarGate
सहायक

पहचान-रहित करना और गोपनीयता-संरक्षण डेटा विश्लेषण

पहचान-रहित करना (De-identification) एक ऐसी प्रक्रिया है जिसमें स्वास्थ्य डेटासेट में व्यक्तियों की पहचान कर सकने वाली जानकारी को हटा दिया जाता है या रूपांतरित कर दिया जाता है, ताकि डेटा का उपयोग और साझाकरण कम गोपनीयता जोखिम के साथ किया जा सके। गोपनीयता-संरक्षण डेटा विश्लेषण (Privacy-preserving data analysis) विधियों का एक व्यापक समूह है जो संवेदनशील डेटा पर उपयोगी गणना की अनुमति देता है, जबकि यह सीमित करता है कि किसी भी व्यक्ति के बारे में कितनी जानकारी प्राप्त की जा सकती है। ये दोनों मिलकर स्वास्थ्य डेटा को अनुसंधान और संचालन में सहायता करने की अनुमति देते हैं, जबकि पुनः-पहचान के जोखिम को सीमित करते हैं।

PaperMind से विषय खोजेंजल्द हीFind papers & topics
Tools & resources
स्लाइड डाउनलोड करें
Learn & explore
वीडियोजल्द ही

Definition

पहचान-रहित करना (De-identification) डेटा से पहचान संबंधी जानकारी को हटाना या बदलना है ताकि व्यक्तियों की आसानी से पहचान न हो सके; गोपनीयता-संरक्षण डेटा विश्लेषण (privacy-preserving data analysis) में ऐसी तकनीकें (औपचारिक अनामिकता मॉडल और शोर-आधारित या वितरित गणना विधियों सहित) शामिल हैं जो संवेदनशील डेटा के विश्लेषण को सक्षम करती हैं, जबकि किसी भी व्यक्ति के बारे में प्रकट की गई जानकारी को सीमित करती हैं।

Scope

यह प्रविष्टि पहचान-रहित करने के औचित्य, मुख्य औपचारिक गोपनीयता मॉडल (जैसे k-अनामिकता और उसके परिष्करण, और विभेदक गोपनीयता), पुनः-पहचान के लगातार जोखिम, और डेटा को केंद्रीकृत किए बिना उस पर गणना करने वाले उभरते दृष्टिकोणों (जैसे फेडरेटेड लर्निंग) को शामिल करती है। यह इन्हें संदर्भ और शिक्षा के लिए पद्धतिगत अवधारणाओं के रूप में मानती है और किसी विशिष्ट डेटासेट को पहचान-रहित करने के लिए एक प्रोटोकॉल या कानूनी पर्याप्तता की गारंटी नहीं है।

Core questions

  • एक रिकॉर्ड को क्या पहचान योग्य बनाता है, और पहचान योग्यता को कैसे कम किया जा सकता है?
  • k-अनामिकता और विभेदक गोपनीयता जैसे मॉडल क्या औपचारिक गारंटी प्रदान करते हैं?
  • पहचान-रहित डेटा को पुनः-पहचानने का जोखिम कितना वास्तविक है?
  • डेटा को केंद्रीकृत या सीधे साझा किए बिना कैसे विश्लेषण किया जा सकता है?
  • गोपनीयता सुरक्षा और डेटा उपयोगिता के बीच संतुलन को कैसे प्रबंधित किया जाता है?

Key concepts

  • प्रत्यक्ष पहचानकर्ता बनाम अर्ध-पहचानकर्ता
  • पुनः-पहचान जोखिम
  • उपयोगिता-गोपनीयता संतुलन
  • सामान्यीकरण और दमन
  • शोर जोड़ना और यादृच्छिक प्रतिक्रिया
  • सिंथेटिक डेटा
  • फेडरेटेड और वितरित विश्लेषण
  • सुरक्षित गणना

Key theories

k-अनामिकता
एक डेटासेट k-अनामिकता को संतुष्ट करता है यदि प्रत्येक रिकॉर्ड अर्ध-पहचानकर्ताओं के एक सेट के संबंध में कम से कम k-1 अन्य से अप्रभेद्य है, ताकि किसी भी व्यक्ति को k से कम लोगों में से अलग नहीं किया जा सके। इसने इस अंतर्ज्ञान को औपचारिक रूप दिया कि प्रतीत होने वाले हानिरहित गुणों के संयोजन लोगों की पहचान कर सकते हैं।
l-विविधता
k-अनामिकता का एक विस्तार जिसमें यह आवश्यक है कि अप्रभेद्य रिकॉर्ड के प्रत्येक समूह में किसी भी संवेदनशील विशेषता के लिए कम से कम l अच्छी तरह से प्रतिनिधित्व वाले मान हों, जो इस कमजोरी को दूर करता है कि k-अनाम डेटा अभी भी संवेदनशील मानों को लीक कर सकता है जब एक समूह सजातीय हो।
विभेदक गोपनीयता
एक औपचारिक गारंटी कि विश्लेषण का आउटपुट लगभग अपरिवर्तित रहता है चाहे किसी एक व्यक्ति का डेटा शामिल हो या नहीं, कैलिब्रेटेड यादृच्छिक शोर द्वारा प्राप्त किया जाता है, ताकि परिणाम से किसी एक व्यक्ति के बारे में बहुत कम अनुमान लगाया जा सके।

Mechanisms

पहचान-रहित करना प्रत्यक्ष पहचानकर्ताओं को हटाकर और अर्ध-पहचानकर्ताओं (जैसे आयु, ज़िप कोड और तिथियां) को सामान्यीकृत या दबाकर पहचान योग्यता को कम करता है, जो संयोजन में व्यक्तियों को अलग कर सकते हैं। औपचारिक मॉडल इस प्रक्रिया को परीक्षण योग्य गारंटी देते हैं: k-अनामिकता (k-anonymity) यह आवश्यक करती है कि प्रत्येक रिकॉर्ड अर्ध-पहचानकर्ताओं पर कम से कम k-1 अन्य के साथ घुलमिल जाए (स्वीनी, 2002), l-विविधता (l-diversity) प्रत्येक समूह के भीतर संवेदनशील मूल्यों में विविधता सुनिश्चित करके इसे मजबूत करती है (मचानावाज्झला एट अल।, 2007), और विभेदक गोपनीयता (differential privacy) कैलिब्रेटेड शोर जोड़कर विश्लेषण पर किसी एक व्यक्ति के प्रभाव को सीमित करती है (ड्वॉर्क एट अल।, 2006)। चूंकि विवरण हटाने से विश्लेषणात्मक उपयोगिता कम हो जाती है, इसलिए प्रत्येक विधि गोपनीयता और उपयोगिता के बीच एक संतुलन बनाती है। एक पूरक दिशा डेटा को विकेंद्रीकृत रखती है: फेडरेटेड लर्निंग (federated learning) अंतर्निहित रिकॉर्ड को स्थानांतरित किए बिना संस्थानों में मॉडल को प्रशिक्षित करती है, जिससे पहचान योग्य डेटा के संपर्क को सीमित किया जाता है (रीके एट अल।, 2020)। इनमें से कोई भी दृष्टिकोण जोखिम-मुक्त नहीं है, और पुनः-पहचान कभी-कभी अपूर्ण या विरल रूप से नमूना किए गए डेटासेट पर भी सफल हो सकती है (रोचर एट अल।, 2019)।

Clinical relevance

पहचान-रहित करना और गोपनीयता-संरक्षण विश्लेषण ही हैं जो अनुसंधान, गुणवत्ता माप और सार्वजनिक स्वास्थ्य के लिए नैदानिक डेटा के बड़े पैमाने पर द्वितीयक उपयोग को व्यापक रूप से पहचान योग्य रिकॉर्ड को उजागर किए बिना संभव बनाते हैं। अवशिष्ट पुनः-पहचान जोखिम के बारे में जागरूकता यह बताती है कि ऐसे डेटा को कैसे नियंत्रित और साझा किया जाता है (रोचर एट अल।, 2019)। यह प्रविष्टि संदर्भ और शिक्षा के लिए विधियों का वर्णन करती है और किसी विशेष डेटासेट को पर्याप्त रूप से पहचान-रहित या कानूनी रूप से अनुपालन के रूप में प्रमाणित नहीं करती है।

Evidence & guidelines

यहां उद्धृत औपचारिक गोपनीयता मॉडल मूलभूत पद्धतिगत योगदान हैं (स्वीनी, 2002; मचानावाज्झला एट अल।, 2007; ड्वॉर्क एट अल।, 2006)। अनुभवजन्य कार्य दर्शाता है कि कुछ शर्तों के तहत पुनः-पहचान अभी भी संभव है (रोचर एट अल।, 2019), जो फेडरेटेड लर्निंग (Rieke et al., 2020) जैसे वितरित दृष्टिकोणों के चल रहे विकास को प्रेरित करता है। पहचान-रहित करने के लिए नियामक मानक (उदाहरण के लिए, HIPAA सेफ हार्बर और विशेषज्ञ निर्धारण विधियाँ) आधिकारिक नियमों में अलग से परिभाषित किए गए हैं और अनुपालन उद्देश्यों के लिए सीधे परामर्श किए जाने चाहिए।

History

सांख्यिकीय प्रकटीकरण सीमा का आधिकारिक आंकड़ों में एक लंबा इतिहास रहा है, लेकिन विस्तृत इलेक्ट्रॉनिक रिकॉर्ड और सार्वजनिक डेटासेट के प्रसार के साथ स्वास्थ्य-डेटा पहचान-रहित करने की आवश्यकता बढ़ गई। स्वीनी की k-अनामिकता (2002) ने इस क्षेत्र को एक प्रभावशाली औपचारिक मॉडल दिया और प्रसिद्ध रूप से यह दर्शाया कि कैसे अर्ध-पहचानकर्ता कथित रूप से गुमनाम रिकॉर्ड को पुनः-पहचान सकते हैं। l-विविधता (2007) जैसे बाद के परिष्करणों ने इसकी सीमाओं को संबोधित किया, और विभेदक गोपनीयता (2006) ने गोपनीयता को जारी किए गए डेटासेट के बजाय विश्लेषण की एक विशेषता के रूप में फिर से परिभाषित किया। हाल के कार्यों ने स्थायी पुनः-पहचान जोखिम (2019) को उजागर किया है और विकेंद्रीकृत विश्लेषण विधियों (2020) को भी विकसित किया है।

Debates

क्या पहचान-रहित स्वास्थ्य डेटा को कभी भी सुरक्षित रूप से गुमनाम माना जा सकता है?
कुछ का तर्क है कि सावधानीपूर्वक पहचान-रहित करना व्यवहार में पुनः-पहचान को नगण्य बनाता है, जबकि अन्य दिखाते हैं कि पुनः-पहचान अपूर्ण डेटासेट पर भी सफल हो सकती है, जिसका अर्थ है कि अनामिकता एक निश्चित गारंटी के बजाय डिग्री और संदर्भ का मामला है।

Related topics

Seminal works

  • sweeney-2002
  • dwork-2006
  • machanavajjhala-2007

Frequently asked questions

k-अनामिकता और विभेदक गोपनीयता में क्या अंतर है?
k-अनामिकता जारी किए गए डेटासेट की एक विशेषता है, जो यह सुनिश्चित करती है कि प्रत्येक रिकॉर्ड अर्ध-पहचानकर्ताओं पर कम से कम k-1 अन्य से अप्रभेद्य है। विभेदक गोपनीयता एक विश्लेषण या रिलीज तंत्र की एक विशेषता है, जो कैलिब्रेटेड शोर जोड़कर यह सीमित करती है कि किसी एक व्यक्ति की उपस्थिति आउटपुट को कितना बदल सकती है। वे विभिन्न तरीकों से गोपनीयता की रक्षा करते हैं और विभिन्न उद्देश्यों के लिए उपयोग किए जा सकते हैं।
क्या पहचान-रहित करना पुनः-पहचान के जोखिम को पूरी तरह से समाप्त कर देता है?
नहीं। पहचान-रहित करना जोखिम को कम करता है लेकिन हमेशा समाप्त नहीं करता है; अनुसंधान से पता चला है कि व्यक्तियों को कभी-कभी पहचान-रहित या अपूर्ण डेटासेट से पुनः-पहचाना जा सकता है, इसलिए अवशिष्ट जोखिम का आकलन और प्रबंधन किया जाना चाहिए, न कि इसे शून्य माना जाना चाहिए।

Methods for this concept

Related concepts