إخفاء الهوية وتحليل البيانات المحافظ على الخصوصية
إخفاء الهوية هو عملية إزالة أو تحويل المعلومات التي يمكن أن تحدد هوية الأفراد في مجموعة بيانات صحية، بحيث يمكن استخدام البيانات ومشاركتها مع تقليل مخاطر الخصوصية. تحليل البيانات المحافظ على الخصوصية هو الفئة الأوسع من الأساليب التي تسمح بإجراء حسابات مفيدة على البيانات الحساسة مع تحديد مقدار ما يمكن معرفته عن أي فرد. وهما معًا يسمحان لبيانات الصحة بدعم البحث والعمليات مع الحد من إعادة تحديد الهوية.
Definition
إخفاء الهوية هو إزالة أو تعديل المعلومات التعريفية من البيانات بحيث لا يمكن التعرف على الأفراد بسهولة؛ ويشمل تحليل البيانات المحافظ على الخصوصية تقنيات (بما في ذلك نماذج إخفاء الهوية الرسمية وطرق الحساب القائمة على الضوضاء أو الموزعة) التي تمكن من تحليل البيانات الحساسة مع تحديد المعلومات المفصح عنها حول أي فرد.
Scope
يتناول هذا المدخل الأساس المنطقي لإخفاء الهوية، والنماذج الرسمية الرئيسية للخصوصية (مثل k-anonymity وتعديلاتها، والخصوصية التفاضلية)، والخطر المستمر لإعادة تحديد الهوية، والأساليب الناشئة التي تجري حسابات على البيانات دون مركزتها (مثل التعلم الموحد). ويعالج هذه المفاهيم كأفكار منهجية للرجوع إليها وللتعليم، وليس كبروتوكول لإخفاء هوية أي مجموعة بيانات محددة أو ضمانًا للكفاية القانونية.
Core questions
- ما الذي يجعل السجل قابلاً للتحديد، وكيف يمكن تقليل قابلية التحديد؟
- ما هي الضمانات الرسمية التي توفرها نماذج مثل k-anonymity والخصوصية التفاضلية؟
- ما مدى واقعية خطر إمكانية إعادة تحديد البيانات المخفية الهوية؟
- كيف يمكن تحليل البيانات دون مركزتها أو مشاركتها مباشرة؟
- كيف تتم إدارة المفاضلة بين حماية الخصوصية وفائدة البيانات؟
Key concepts
- المعرفات المباشرة مقابل المعرفات شبه المباشرة
- خطر إعادة تحديد الهوية
- المفاضلة بين الفائدة والخصوصية
- التعميم والحجب
- إضافة الضوضاء والاستجابة العشوائية
- البيانات الاصطناعية
- التحليل الموحد والموزع
- الحوسبة الآمنة
Key theories
- k-Anonymity
- تفي مجموعة البيانات بـ k-anonymity إذا كان كل سجل لا يمكن تمييزه عن ما لا يقل عن k-1 سجلات أخرى فيما يتعلق بمجموعة من المعرفات شبه المباشرة، بحيث لا يمكن تمييز أي فرد من بين أقل من k أشخاص. وقد أضفت طابعًا رسميًا على الحدس بأن مجموعات من السمات التي تبدو غير ضارة يمكن أن تحدد هوية الأشخاص.
- l-Diversity
- امتداد لـ k-anonymity يتطلب أن تحتوي كل مجموعة من السجلات غير القابلة للتمييز على ما لا يقل عن l قيم ممثلة جيدًا لأي سمة حساسة، مما يعالج الضعف الذي يمكن أن يؤدي إلى تسرب قيم حساسة من البيانات k-مجهولة الهوية عندما تكون المجموعة متجانسة.
- الخصوصية التفاضلية
- ضمان رسمي بأن مخرجات التحليل لا تتغير تقريبًا سواء تم تضمين بيانات أي فرد واحد أم لا، ويتم تحقيق ذلك عن طريق ضوضاء عشوائية معايرة، بحيث لا يمكن استنتاج الكثير عن أي شخص واحد من النتيجة.
Mechanisms
يقلل إخفاء الهوية من قابلية التحديد عن طريق إزالة المعرفات المباشرة وعن طريق تعميم أو حجب المعرفات شبه المباشرة (مثل العمر، والرمز البريدي، والتواريخ) التي، مجتمعة، يمكن أن تحدد الأفراد. توفر النماذج الرسمية ضمانات قابلة للاختبار لهذه العملية: تتطلب k-anonymity أن يندمج كل سجل مع ما لا يقل عن k-1 سجلات أخرى بناءً على المعرفات شبه المباشرة (Sweeney, 2002)، وتعززها l-diversity بضمان التنوع في القيم الحساسة داخل كل مجموعة (Machanavajjhala et al., 2007)، وتحدد الخصوصية التفاضلية تأثير أي فرد واحد على التحليل عن طريق إضافة ضوضاء معايرة (Dwork et al., 2006). نظرًا لأن إزالة التفاصيل تقلل من الفائدة التحليلية، فإن كل طريقة تتنقل بين مفاضلة بين الخصوصية والفائدة. اتجاه تكميلي يحافظ على البيانات لامركزية: يقوم التعلم الموحد بتدريب النماذج عبر المؤسسات دون نقل السجلات الأساسية، مما يحد من تعرض البيانات القابلة للتحديد (Rieke et al., 2020). لا تخلو أي من هذه الأساليب من المخاطر، ويمكن أن تنجح إعادة تحديد الهوية أحيانًا حتى على مجموعات البيانات غير المكتملة أو التي تم أخذ عينات منها بشكل متفرق (Rocher et al., 2019).
Clinical relevance
إن إخفاء الهوية والتحليل المحافظ على الخصوصية هما ما يجعل الاستخدام الثانوي واسع النطاق للبيانات السريرية لأغراض البحث، وقياس الجودة، والصحة العامة ممكنًا دون تعريض السجلات القابلة للتحديد على نطاق واسع. يساهم الوعي بمخاطر إعادة تحديد الهوية المتبقية في كيفية إدارة هذه البيانات ومشاركتها (Rocher et al., 2019). يصف هذا المدخل الأساليب للرجوع إليها وللتعليم ولا يصادق على أي مجموعة بيانات معينة على أنها مخفية الهوية بشكل كافٍ أو متوافقة قانونيًا.
Evidence & guidelines
تعد نماذج الخصوصية الرسمية المذكورة هنا مساهمات منهجية أساسية (Sweeney, 2002; Machanavajjhala et al., 2007; Dwork et al., 2006). تُظهر الأعمال التجريبية أن إعادة تحديد الهوية لا تزال ممكنة في ظل بعض الظروف (Rocher et al., 2019)، مما يحفز التطوير المستمر للأساليب الموزعة مثل التعلم الموحد (Rieke et al., 2020). يتم تعريف المعايير التنظيمية لإخفاء الهوية (على سبيل المثال، طرق الملاذ الآمن HIPAA وتحديد الخبراء) بشكل منفصل في القواعد الرسمية ويجب الرجوع إليها مباشرة لأغراض الامتثال.
History
لتقييد الكشف الإحصائي تاريخ طويل في الإحصاءات الرسمية، لكن إخفاء هوية البيانات الصحية اكتسب أهمية ملحة مع انتشار السجلات الإلكترونية المفصلة ومجموعات البيانات العامة. قدمت k-anonymity لسويني (2002) نموذجًا رسميًا مؤثرًا للمجال وأوضحت بشكل مشهور كيف يمكن للمعرفات شبه المباشرة إعادة تحديد السجلات التي يُفترض أنها مجهولة الهوية. تناولت التعديلات اللاحقة مثل l-diversity (2007) حدودها، وأعادت الخصوصية التفاضلية (2006) صياغة الخصوصية كخاصية للتحليل بدلاً من مجموعة البيانات الصادرة. وقد أبرز العمل الأحدث خطر إعادة تحديد الهوية المستمر (2019) وطور أساليب تحليل لامركزية (2020).
Debates
- هل يمكن اعتبار البيانات الصحية المخفية الهوية آمنة تمامًا؟
- يجادل البعض بأن إخفاء الهوية الدقيق يجعل إعادة تحديد الهوية ضئيلة عمليًا، بينما يظهر آخرون أن إعادة تحديد الهوية يمكن أن تنجح حتى على مجموعات البيانات غير المكتملة، مما يعني أن إخفاء الهوية هو مسألة درجة وسياق وليس ضمانًا ثابتًا.
Related topics
Seminal works
- sweeney-2002
- dwork-2006
- machanavajjhala-2007
Frequently asked questions
- ما الفرق بين k-anonymity والخصوصية التفاضلية؟
- k-anonymity هي خاصية لمجموعة بيانات صادرة، تضمن أن كل سجل لا يمكن تمييزه عن ما لا يقل عن k-1 سجلات أخرى بناءً على المعرفات شبه المباشرة. الخصوصية التفاضلية هي خاصية لآلية تحليل أو إصدار، تحدد مدى تأثير وجود أي فرد واحد على المخرجات عن طريق إضافة ضوضاء معايرة. إنهما يحميان الخصوصية بطرق مختلفة ويمكن استخدامهما لأغراض مختلفة.
- هل يزيل إخفاء الهوية خطر إعادة تحديد الهوية بالكامل؟
- لا. يقلل إخفاء الهوية من المخاطر ولكنه لا يزيلها دائمًا؛ فقد أظهرت الأبحاث أنه يمكن أحيانًا إعادة تحديد هوية الأفراد من مجموعات البيانات المخفية الهوية أو غير المكتملة، لذا يجب تقييم المخاطر المتبقية وإدارتها بدلاً من افتراض أنها صفر.