ناشناسسازی و تحلیل دادهها با حفظ حریم خصوصی
ناشناسسازی فرآیند حذف یا تغییر اطلاعاتی است که میتواند افراد را در یک مجموعه داده سلامت شناسایی کند تا دادهها با کاهش خطر نقض حریم خصوصی مورد استفاده و اشتراکگذاری قرار گیرند. تحلیل دادهها با حفظ حریم خصوصی، خانواده گستردهتری از روشها است که امکان محاسبات مفید بر روی دادههای حساس را فراهم میکند، در حالی که میزان اطلاعات قابل استخراج درباره هر فرد را محدود میسازد. این دو با هم به دادههای سلامت اجازه میدهند تا از تحقیقات و عملیات پشتیبانی کنند، در حالی که شناسایی مجدد را محدود مینمایند.
Definition
ناشناسسازی عبارت است از حذف یا تغییر اطلاعات شناساییکننده از دادهها به گونهای که افراد به راحتی قابل شناسایی نباشند؛ تحلیل دادهها با حفظ حریم خصوصی شامل تکنیکهایی (از جمله مدلهای رسمی ناشناسسازی و روشهای محاسباتی مبتنی بر نویز یا توزیعشده) است که امکان تحلیل دادههای حساس را فراهم میکند، در حالی که اطلاعات افشا شده درباره هر فرد را محدود میسازد.
Scope
این مدخل به منطق ناشناسسازی، مدلهای رسمی اصلی حفظ حریم خصوصی (مانند k-ناشناسایی و اصلاحات آن، و حریم خصوصی افتراقی)، خطر مداوم شناسایی مجدد، و رویکردهای نوظهوری که بر روی دادهها بدون متمرکز کردن آنها (مانند یادگیری فدرال) محاسبه انجام میدهند، میپردازد. این موارد به عنوان مفاهیم روششناختی برای ارجاع و آموزش مورد بررسی قرار میگیرند و پروتکلی برای ناشناسسازی هیچ مجموعه داده خاصی یا تضمینی برای کفایت قانونی نیستند.
Core questions
- چه چیزی یک رکورد را قابل شناسایی میکند و چگونه میتوان قابلیت شناسایی را کاهش داد؟
- مدلهایی مانند k-ناشناسایی و حریم خصوصی افتراقی چه تضمینهای رسمی ارائه میدهند؟
- خطر شناسایی مجدد دادههای ناشناسشده چقدر واقعی است؟
- چگونه میتوان دادهها را بدون متمرکز کردن یا اشتراکگذاری مستقیم تحلیل کرد؟
- چگونه تعادل بین حفاظت از حریم خصوصی و سودمندی دادهها مدیریت میشود؟
Key concepts
- شناسههای مستقیم در مقابل شبهشناسهها
- خطر شناسایی مجدد
- موازنه سودمندی-حریم خصوصی
- تعمیم و سرکوب
- افزودن نویز و پاسخ تصادفی
- دادههای مصنوعی
- تحلیل فدرال و توزیعشده
- محاسبات امن
Key theories
- k-ناشناسایی
- یک مجموعه داده زمانی k-ناشناسایی را برآورده میکند که هر رکورد با حداقل k-1 رکورد دیگر در رابطه با مجموعهای از شبهشناسهها غیرقابل تشخیص باشد، به طوری که هیچ فردی را نتوان در میان کمتر از k نفر مشخص کرد. این مدل، شهود را رسمی کرد که ترکیبی از ویژگیهای به ظاهر بیضرر میتواند افراد را شناسایی کند.
- l-تنوع
- گسترشی از k-ناشناسایی که مستلزم آن است که هر گروه از رکوردهای غیرقابل تشخیص، حداقل l مقدار به خوبی نمایشیافته برای هر ویژگی حساس را شامل شود، و ضعف دادههای k-ناشناس را که همچنان میتوانند مقادیر حساس را در صورت همگن بودن یک گروه فاش کنند، برطرف میکند.
- حریم خصوصی افتراقی
- یک تضمین رسمی که خروجی یک تحلیل تقریباً بدون تغییر باقی میماند، چه دادههای یک فرد خاص در آن گنجانده شده باشد یا نه، که با افزودن نویز تصادفی کالیبره شده به دست میآید، به طوری که اطلاعات کمی درباره یک فرد خاص از نتیجه قابل استنباط باشد.
Mechanisms
ناشناسسازی با حذف شناسههای مستقیم و با تعمیم یا سرکوب شبهشناسهها (مانند سن، کد پستی، و تاریخها) که در ترکیب میتوانند افراد را مشخص کنند، قابلیت شناسایی را کاهش میدهد. مدلهای رسمی به این فرآیند تضمینهای قابل آزمایشی میدهند: k-ناشناسایی مستلزم آن است که هر رکورد با حداقل k-1 رکورد دیگر در مورد شبهشناسهها ترکیب شود (Sweeney, 2002)، l-تنوع با تضمین تنوع در مقادیر حساس در هر گروه آن را تقویت میکند (Machanavajjhala et al., 2007)، و حریم خصوصی افتراقی با افزودن نویز کالیبره شده، تأثیر هر فرد را بر یک تحلیل محدود میکند (Dwork et al., 2006). از آنجا که حذف جزئیات، سودمندی تحلیلی را کاهش میدهد، هر روشی بین حریم خصوصی و سودمندی تعادلی برقرار میکند. یک جهت مکمل، دادهها را غیرمتمرکز نگه میدارد: یادگیری فدرال مدلها را در سراسر مؤسسات بدون جابجایی رکوردهای زیربنایی آموزش میدهد و قرار گرفتن دادههای قابل شناسایی را محدود میکند (Rieke et al., 2020). هیچ یک از این رویکردها بدون خطر نیستند و شناسایی مجدد گاهی اوقات حتی بر روی مجموعههای داده ناقص یا نمونهبرداری شده پراکنده نیز میتواند موفق باشد (Rocher et al., 2019).
Clinical relevance
ناشناسسازی و تحلیل با حفظ حریم خصوصی، استفاده ثانویه در مقیاس بزرگ از دادههای بالینی برای تحقیق، اندازهگیری کیفیت و بهداشت عمومی را بدون افشای گسترده رکوردهای قابل شناسایی، امکانپذیر میسازند. آگاهی از خطر شناسایی مجدد باقیمانده، نحوه مدیریت و اشتراکگذاری چنین دادههایی را مشخص میکند (Rocher et al., 2019). این مدخل روشها را برای ارجاع و آموزش توصیف میکند و هیچ مجموعه داده خاصی را به عنوان ناشناسشده کافی یا مطابق با قوانین تأیید نمیکند.
Evidence & guidelines
مدلهای رسمی حریم خصوصی که در اینجا ذکر شدهاند، مشارکتهای روششناختی اساسی هستند (Sweeney, 2002; Machanavajjhala et al., 2007; Dwork et al., 2006). کارهای تجربی نشان میدهند که شناسایی مجدد تحت برخی شرایط همچنان امکانپذیر است (Rocher et al., 2019)، که انگیزهای برای توسعه مداوم رویکردهای توزیعشده مانند یادگیری فدرال است (Rieke et al., 2020). استانداردهای نظارتی برای ناشناسسازی (به عنوان مثال، روشهای HIPAA Safe Harbor و Expert Determination) به طور جداگانه در قوانین رسمی تعریف شدهاند و برای اهداف انطباق باید مستقیماً به آنها مراجعه شود.
History
محدودیت افشای آماری سابقه طولانی در آمار رسمی دارد، اما ناشناسسازی دادههای سلامت با گسترش رکوردهای الکترونیکی دقیق و مجموعههای داده عمومی، فوریت بیشتری یافت. k-ناشناسایی Sweeney (2002) یک مدل رسمی تأثیرگذار به این حوزه داد و به طور مشهوری نشان داد که چگونه شبهشناسهها میتوانند رکوردهای به ظاهر ناشناس را شناسایی مجدد کنند. اصلاحات بعدی مانند l-تنوع (2007) محدودیتهای آن را برطرف کرد، و حریم خصوصی افتراقی (2006) حریم خصوصی را به عنوان ویژگی تحلیل و نه مجموعه داده منتشر شده، بازتعریف کرد. کارهای اخیر هم خطر پایدار شناسایی مجدد (2019) را برجسته کردهاند و هم روشهای تحلیل غیرمتمرکز (2020) را توسعه دادهاند.
Debates
- آیا دادههای سلامت ناشناسشده را میتوان همیشه به طور ایمن ناشناس در نظر گرفت؟
- برخی استدلال میکنند که ناشناسسازی دقیق، شناسایی مجدد را در عمل ناچیز میسازد، در حالی که برخی دیگر نشان میدهند که شناسایی مجدد حتی بر روی مجموعههای داده ناقص نیز میتواند موفق باشد، که به این معنی است که ناشناسایی یک مسئله درجه و زمینه است تا یک تضمین ثابت.
Related topics
Seminal works
- sweeney-2002
- dwork-2006
- machanavajjhala-2007
Frequently asked questions
- تفاوت بین k-ناشناسایی و حریم خصوصی افتراقی چیست؟
- k-ناشناسایی یک ویژگی از یک مجموعه داده منتشر شده است که تضمین میکند هر رکورد با حداقل k-1 رکورد دیگر در مورد شبهشناسهها غیرقابل تشخیص است. حریم خصوصی افتراقی یک ویژگی از یک مکانیسم تحلیل یا انتشار است که با افزودن نویز کالیبره شده، میزان تغییر خروجی را به دلیل حضور هر فرد خاص محدود میکند. آنها حریم خصوصی را به روشهای مختلفی محافظت میکنند و میتوانند برای اهداف متفاوتی استفاده شوند.
- آیا ناشناسسازی به طور کامل خطر شناسایی مجدد را از بین میبرد؟
- خیر. ناشناسسازی خطر را کاهش میدهد اما همیشه آن را از بین نمیبرد؛ تحقیقات نشان دادهاند که افراد گاهی اوقات میتوانند از مجموعههای داده ناشناسشده یا ناقص شناسایی مجدد شوند، بنابراین خطر باقیمانده باید ارزیابی و مدیریت شود، نه اینکه فرض شود صفر است.