ScholarGate
دستیار

ناشناس‌سازی و تحلیل داده‌ها با حفظ حریم خصوصی

ناشناس‌سازی فرآیند حذف یا تغییر اطلاعاتی است که می‌تواند افراد را در یک مجموعه داده سلامت شناسایی کند تا داده‌ها با کاهش خطر نقض حریم خصوصی مورد استفاده و اشتراک‌گذاری قرار گیرند. تحلیل داده‌ها با حفظ حریم خصوصی، خانواده گسترده‌تری از روش‌ها است که امکان محاسبات مفید بر روی داده‌های حساس را فراهم می‌کند، در حالی که میزان اطلاعات قابل استخراج درباره هر فرد را محدود می‌سازد. این دو با هم به داده‌های سلامت اجازه می‌دهند تا از تحقیقات و عملیات پشتیبانی کنند، در حالی که شناسایی مجدد را محدود می‌نمایند.

یافتن موضوع با PaperMindبه‌زودیFind papers & topics
Tools & resources
دریافت اسلایدها
Learn & explore
ویدیوبه‌زودی

Definition

ناشناس‌سازی عبارت است از حذف یا تغییر اطلاعات شناسایی‌کننده از داده‌ها به گونه‌ای که افراد به راحتی قابل شناسایی نباشند؛ تحلیل داده‌ها با حفظ حریم خصوصی شامل تکنیک‌هایی (از جمله مدل‌های رسمی ناشناس‌سازی و روش‌های محاسباتی مبتنی بر نویز یا توزیع‌شده) است که امکان تحلیل داده‌های حساس را فراهم می‌کند، در حالی که اطلاعات افشا شده درباره هر فرد را محدود می‌سازد.

Scope

این مدخل به منطق ناشناس‌سازی، مدل‌های رسمی اصلی حفظ حریم خصوصی (مانند k-ناشناسایی و اصلاحات آن، و حریم خصوصی افتراقی)، خطر مداوم شناسایی مجدد، و رویکردهای نوظهوری که بر روی داده‌ها بدون متمرکز کردن آن‌ها (مانند یادگیری فدرال) محاسبه انجام می‌دهند، می‌پردازد. این موارد به عنوان مفاهیم روش‌شناختی برای ارجاع و آموزش مورد بررسی قرار می‌گیرند و پروتکلی برای ناشناس‌سازی هیچ مجموعه داده خاصی یا تضمینی برای کفایت قانونی نیستند.

Core questions

  • چه چیزی یک رکورد را قابل شناسایی می‌کند و چگونه می‌توان قابلیت شناسایی را کاهش داد؟
  • مدل‌هایی مانند k-ناشناسایی و حریم خصوصی افتراقی چه تضمین‌های رسمی ارائه می‌دهند؟
  • خطر شناسایی مجدد داده‌های ناشناس‌شده چقدر واقعی است؟
  • چگونه می‌توان داده‌ها را بدون متمرکز کردن یا اشتراک‌گذاری مستقیم تحلیل کرد؟
  • چگونه تعادل بین حفاظت از حریم خصوصی و سودمندی داده‌ها مدیریت می‌شود؟

Key concepts

  • شناسه‌های مستقیم در مقابل شبه‌شناسه‌ها
  • خطر شناسایی مجدد
  • موازنه سودمندی-حریم خصوصی
  • تعمیم و سرکوب
  • افزودن نویز و پاسخ تصادفی
  • داده‌های مصنوعی
  • تحلیل فدرال و توزیع‌شده
  • محاسبات امن

Key theories

k-ناشناسایی
یک مجموعه داده زمانی k-ناشناسایی را برآورده می‌کند که هر رکورد با حداقل k-1 رکورد دیگر در رابطه با مجموعه‌ای از شبه‌شناسه‌ها غیرقابل تشخیص باشد، به طوری که هیچ فردی را نتوان در میان کمتر از k نفر مشخص کرد. این مدل، شهود را رسمی کرد که ترکیبی از ویژگی‌های به ظاهر بی‌ضرر می‌تواند افراد را شناسایی کند.
l-تنوع
گسترشی از k-ناشناسایی که مستلزم آن است که هر گروه از رکوردهای غیرقابل تشخیص، حداقل l مقدار به خوبی نمایش‌یافته برای هر ویژگی حساس را شامل شود، و ضعف داده‌های k-ناشناس را که همچنان می‌توانند مقادیر حساس را در صورت همگن بودن یک گروه فاش کنند، برطرف می‌کند.
حریم خصوصی افتراقی
یک تضمین رسمی که خروجی یک تحلیل تقریباً بدون تغییر باقی می‌ماند، چه داده‌های یک فرد خاص در آن گنجانده شده باشد یا نه، که با افزودن نویز تصادفی کالیبره شده به دست می‌آید، به طوری که اطلاعات کمی درباره یک فرد خاص از نتیجه قابل استنباط باشد.

Mechanisms

ناشناس‌سازی با حذف شناسه‌های مستقیم و با تعمیم یا سرکوب شبه‌شناسه‌ها (مانند سن، کد پستی، و تاریخ‌ها) که در ترکیب می‌توانند افراد را مشخص کنند، قابلیت شناسایی را کاهش می‌دهد. مدل‌های رسمی به این فرآیند تضمین‌های قابل آزمایشی می‌دهند: k-ناشناسایی مستلزم آن است که هر رکورد با حداقل k-1 رکورد دیگر در مورد شبه‌شناسه‌ها ترکیب شود (Sweeney, 2002)، l-تنوع با تضمین تنوع در مقادیر حساس در هر گروه آن را تقویت می‌کند (Machanavajjhala et al., 2007)، و حریم خصوصی افتراقی با افزودن نویز کالیبره شده، تأثیر هر فرد را بر یک تحلیل محدود می‌کند (Dwork et al., 2006). از آنجا که حذف جزئیات، سودمندی تحلیلی را کاهش می‌دهد، هر روشی بین حریم خصوصی و سودمندی تعادلی برقرار می‌کند. یک جهت مکمل، داده‌ها را غیرمتمرکز نگه می‌دارد: یادگیری فدرال مدل‌ها را در سراسر مؤسسات بدون جابجایی رکوردهای زیربنایی آموزش می‌دهد و قرار گرفتن داده‌های قابل شناسایی را محدود می‌کند (Rieke et al., 2020). هیچ یک از این رویکردها بدون خطر نیستند و شناسایی مجدد گاهی اوقات حتی بر روی مجموعه‌های داده ناقص یا نمونه‌برداری شده پراکنده نیز می‌تواند موفق باشد (Rocher et al., 2019).

Clinical relevance

ناشناس‌سازی و تحلیل با حفظ حریم خصوصی، استفاده ثانویه در مقیاس بزرگ از داده‌های بالینی برای تحقیق، اندازه‌گیری کیفیت و بهداشت عمومی را بدون افشای گسترده رکوردهای قابل شناسایی، امکان‌پذیر می‌سازند. آگاهی از خطر شناسایی مجدد باقیمانده، نحوه مدیریت و اشتراک‌گذاری چنین داده‌هایی را مشخص می‌کند (Rocher et al., 2019). این مدخل روش‌ها را برای ارجاع و آموزش توصیف می‌کند و هیچ مجموعه داده خاصی را به عنوان ناشناس‌شده کافی یا مطابق با قوانین تأیید نمی‌کند.

Evidence & guidelines

مدل‌های رسمی حریم خصوصی که در اینجا ذکر شده‌اند، مشارکت‌های روش‌شناختی اساسی هستند (Sweeney, 2002; Machanavajjhala et al., 2007; Dwork et al., 2006). کارهای تجربی نشان می‌دهند که شناسایی مجدد تحت برخی شرایط همچنان امکان‌پذیر است (Rocher et al., 2019)، که انگیزه‌ای برای توسعه مداوم رویکردهای توزیع‌شده مانند یادگیری فدرال است (Rieke et al., 2020). استانداردهای نظارتی برای ناشناس‌سازی (به عنوان مثال، روش‌های HIPAA Safe Harbor و Expert Determination) به طور جداگانه در قوانین رسمی تعریف شده‌اند و برای اهداف انطباق باید مستقیماً به آنها مراجعه شود.

History

محدودیت افشای آماری سابقه طولانی در آمار رسمی دارد، اما ناشناس‌سازی داده‌های سلامت با گسترش رکوردهای الکترونیکی دقیق و مجموعه‌های داده عمومی، فوریت بیشتری یافت. k-ناشناسایی Sweeney (2002) یک مدل رسمی تأثیرگذار به این حوزه داد و به طور مشهوری نشان داد که چگونه شبه‌شناسه‌ها می‌توانند رکوردهای به ظاهر ناشناس را شناسایی مجدد کنند. اصلاحات بعدی مانند l-تنوع (2007) محدودیت‌های آن را برطرف کرد، و حریم خصوصی افتراقی (2006) حریم خصوصی را به عنوان ویژگی تحلیل و نه مجموعه داده منتشر شده، بازتعریف کرد. کارهای اخیر هم خطر پایدار شناسایی مجدد (2019) را برجسته کرده‌اند و هم روش‌های تحلیل غیرمتمرکز (2020) را توسعه داده‌اند.

Debates

آیا داده‌های سلامت ناشناس‌شده را می‌توان همیشه به طور ایمن ناشناس در نظر گرفت؟
برخی استدلال می‌کنند که ناشناس‌سازی دقیق، شناسایی مجدد را در عمل ناچیز می‌سازد، در حالی که برخی دیگر نشان می‌دهند که شناسایی مجدد حتی بر روی مجموعه‌های داده ناقص نیز می‌تواند موفق باشد، که به این معنی است که ناشناسایی یک مسئله درجه و زمینه است تا یک تضمین ثابت.

Related topics

Seminal works

  • sweeney-2002
  • dwork-2006
  • machanavajjhala-2007

Frequently asked questions

تفاوت بین k-ناشناسایی و حریم خصوصی افتراقی چیست؟
k-ناشناسایی یک ویژگی از یک مجموعه داده منتشر شده است که تضمین می‌کند هر رکورد با حداقل k-1 رکورد دیگر در مورد شبه‌شناسه‌ها غیرقابل تشخیص است. حریم خصوصی افتراقی یک ویژگی از یک مکانیسم تحلیل یا انتشار است که با افزودن نویز کالیبره شده، میزان تغییر خروجی را به دلیل حضور هر فرد خاص محدود می‌کند. آنها حریم خصوصی را به روش‌های مختلفی محافظت می‌کنند و می‌توانند برای اهداف متفاوتی استفاده شوند.
آیا ناشناس‌سازی به طور کامل خطر شناسایی مجدد را از بین می‌برد؟
خیر. ناشناس‌سازی خطر را کاهش می‌دهد اما همیشه آن را از بین نمی‌برد؛ تحقیقات نشان داده‌اند که افراد گاهی اوقات می‌توانند از مجموعه‌های داده ناشناس‌شده یا ناقص شناسایی مجدد شوند، بنابراین خطر باقیمانده باید ارزیابی و مدیریت شود، نه اینکه فرض شود صفر است.

Methods for this concept

Related concepts