ScholarGate
Asisten

De-identifikasi dan Analisis Data yang Menjaga Privasi

De-identifikasi adalah proses menghapus atau mengubah informasi yang dapat mengidentifikasi individu dalam kumpulan data kesehatan sehingga data tersebut dapat digunakan dan dibagikan dengan risiko privasi yang berkurang. Analisis data yang menjaga privasi adalah keluarga metode yang lebih luas yang memungkinkan komputasi yang berguna atas data sensitif sambil membatasi seberapa banyak yang dapat diketahui tentang individu mana pun. Bersama-sama, keduanya memungkinkan data kesehatan mendukung penelitian dan operasi sambil membatasi re-identifikasi.

Temukan Topik dengan PaperMindSegeraFind papers & topics
Tools & resources
Unduh salindia
Learn & explore
VideoSegera

Definition

De-identifikasi adalah penghapusan atau perubahan informasi pengidentifikasi dari data sehingga individu tidak mudah diidentifikasi; analisis data yang menjaga privasi meliputi teknik (termasuk model anonimisasi formal dan metode komputasi berbasis kebisingan atau terdistribusi) yang memungkinkan analisis data sensitif sambil membatasi informasi yang diungkapkan tentang individu mana pun.

Scope

Entri ini mencakup dasar pemikiran untuk de-identifikasi, model privasi formal utama (seperti k-anonimitas dan penyempurnaannya, serta privasi diferensial), risiko re-identifikasi yang terus-menerus, dan pendekatan baru yang melakukan komputasi atas data tanpa memusatkannya (seperti pembelajaran terfederasi). Ini memperlakukan hal-hal ini sebagai konsep metodologis untuk referensi dan pendidikan dan bukan merupakan protokol untuk melakukan de-identifikasi kumpulan data tertentu atau jaminan kecukupan hukum.

Core questions

  • Apa yang membuat suatu catatan dapat diidentifikasi, dan bagaimana kemampuan identifikasi dapat dikurangi?
  • Jaminan formal apa yang diberikan oleh model seperti k-anonimitas dan privasi diferensial?
  • Seberapa nyata risiko bahwa data yang telah dide-identifikasi dapat diidentifikasi kembali?
  • Bagaimana data dapat dianalisis tanpa dipusatkan atau dibagikan secara langsung?
  • Bagaimana pertukaran antara perlindungan privasi dan utilitas data dikelola?

Key concepts

  • Pengidentifikasi langsung versus pengidentifikasi semu
  • Risiko re-identifikasi
  • Pertukaran utilitas-privasi
  • Generalisasi dan penekanan
  • Penambahan kebisingan dan respons acak
  • Data sintetis
  • Analisis terfederasi dan terdistribusi
  • Komputasi aman

Key theories

k-Anonimitas
Kumpulan data memenuhi k-anonimitas jika setiap catatan tidak dapat dibedakan dari setidaknya k-1 catatan lain sehubungan dengan sekumpulan pengidentifikasi semu, sehingga tidak ada individu yang dapat diidentifikasi di antara kurang dari k orang. Ini memformalkan intuisi bahwa kombinasi atribut yang tampaknya tidak berbahaya dapat mengidentifikasi orang.
l-Diversitas
Perluasan k-anonimitas yang mensyaratkan bahwa setiap kelompok catatan yang tidak dapat dibedakan mengandung setidaknya l nilai yang terwakili dengan baik untuk atribut sensitif apa pun, mengatasi kelemahan bahwa data k-anonim masih dapat membocorkan nilai sensitif ketika suatu kelompok homogen.
Privasi diferensial
Jaminan formal bahwa keluaran analisis hampir tidak berubah apakah data individu mana pun disertakan atau tidak, dicapai dengan kebisingan acak yang terkalibrasi, sehingga sedikit yang dapat disimpulkan tentang satu orang dari hasilnya.

Mechanisms

De-identifikasi mengurangi kemampuan identifikasi dengan menghapus pengidentifikasi langsung dan dengan menggeneralisasi atau menekan pengidentifikasi semu (seperti usia, kode pos, dan tanggal) yang, jika digabungkan, dapat mengidentifikasi individu. Model formal memberikan jaminan yang dapat diuji pada proses ini: k-anonimitas mensyaratkan bahwa setiap catatan menyatu dengan setidaknya k-1 catatan lain pada pengidentifikasi semu (Sweeney, 2002), l-diversitas memperkuatnya dengan memastikan variasi dalam nilai sensitif dalam setiap kelompok (Machanavajjhala et al., 2007), dan privasi diferensial membatasi pengaruh individu mana pun pada analisis dengan menambahkan kebisingan yang terkalibrasi (Dwork et al., 2006). Karena penghapusan detail mengurangi kegunaan analitis, setiap metode menavigasi pertukaran antara privasi dan utilitas. Arah pelengkap menjaga data tetap terdesentralisasi: pembelajaran terfederasi melatih model di seluruh institusi tanpa memindahkan catatan yang mendasarinya, membatasi paparan data yang dapat diidentifikasi (Rieke et al., 2020). Tidak ada pendekatan ini yang bebas risiko, dan re-identifikasi terkadang dapat berhasil bahkan pada kumpulan data yang tidak lengkap atau diambil sampelnya secara jarang (Rocher et al., 2019).

Clinical relevance

De-identifikasi dan analisis yang menjaga privasi adalah apa yang membuat penggunaan sekunder data klinis skala besar untuk penelitian, pengukuran kualitas, dan kesehatan masyarakat menjadi mungkin tanpa secara luas mengekspos catatan yang dapat diidentifikasi. Kesadaran akan risiko re-identifikasi residual menginformasikan bagaimana data tersebut diatur dan dibagikan (Rocher et al., 2019). Entri ini menjelaskan metode untuk referensi dan pendidikan dan tidak mengesahkan kumpulan data tertentu sebagai telah dide-identifikasi secara memadai atau sesuai secara hukum.

Evidence & guidelines

Model privasi formal yang dikutip di sini adalah kontribusi metodologis fundamental (Sweeney, 2002; Machanavajjhala et al., 2007; Dwork et al., 2006). Karya empiris menunjukkan bahwa re-identifikasi tetap mungkin dilakukan dalam beberapa kondisi (Rocher et al., 2019), memotivasi pengembangan berkelanjutan pendekatan terdistribusi seperti pembelajaran terfederasi (Rieke et al., 2020). Standar regulasi untuk de-identifikasi (misalnya, metode HIPAA Safe Harbor dan Expert Determination) didefinisikan secara terpisah dalam aturan resmi dan harus dikonsultasikan secara langsung untuk tujuan kepatuhan.

History

Pembatasan pengungkapan statistik memiliki sejarah panjang dalam statistik resmi, tetapi de-identifikasi data kesehatan menjadi mendesak seiring dengan proliferasi catatan elektronik terperinci dan kumpulan data publik. k-anonimitas Sweeney (2002) memberikan model formal yang berpengaruh pada bidang ini dan secara terkenal mengilustrasikan bagaimana pengidentifikasi semu dapat mengidentifikasi kembali catatan yang seharusnya anonim. Penyempurnaan selanjutnya seperti l-diversitas (2007) mengatasi batasannya, dan privasi diferensial (2006) membingkai ulang privasi sebagai properti analisis daripada kumpulan data yang dirilis. Karya yang lebih baru telah menyoroti risiko re-identifikasi yang bertahan (2019) dan mengembangkan metode analisis terdesentralisasi (2020).

Debates

Dapatkah data kesehatan yang telah dide-identifikasi dianggap aman secara anonim?
Beberapa berpendapat bahwa de-identifikasi yang cermat membuat re-identifikasi dapat diabaikan dalam praktiknya, sementara yang lain menunjukkan bahwa re-identifikasi dapat berhasil bahkan pada kumpulan data yang tidak lengkap, menyiratkan bahwa anonimitas adalah masalah derajat dan konteks daripada jaminan tetap.

Related topics

Seminal works

  • sweeney-2002
  • dwork-2006
  • machanavajjhala-2007

Frequently asked questions

Apa perbedaan antara k-anonimitas dan privasi diferensial?
k-anonimitas adalah properti dari kumpulan data yang dirilis, memastikan setiap catatan tidak dapat dibedakan dari setidaknya k-1 catatan lain pada pengidentifikasi semu. Privasi diferensial adalah properti dari mekanisme analisis atau rilis, membatasi seberapa banyak keberadaan individu mana pun dapat mengubah keluaran dengan menambahkan kebisingan yang terkalibrasi. Keduanya melindungi privasi dengan cara yang berbeda dan dapat digunakan untuk tujuan yang berbeda.
Apakah de-identifikasi sepenuhnya menghilangkan risiko re-identifikasi?
Tidak. De-identifikasi mengurangi tetapi tidak selalu menghilangkan risiko; penelitian telah menunjukkan bahwa individu terkadang dapat diidentifikasi kembali dari kumpulan data yang telah dide-identifikasi atau tidak lengkap, sehingga risiko residual harus dinilai dan dikelola daripada diasumsikan nol.

Methods for this concept

Related concepts