Kimliksizleştirme ve Gizliliği Koruyan Veri Analizi
Kimliksizleştirme, bir sağlık veri kümesindeki bireyleri tanımlayabilecek bilgilerin kaldırılması veya dönüştürülmesi sürecidir; bu sayede veriler, gizlilik riski azaltılarak kullanılabilmekte ve paylaşılabilmektedir. Gizliliği koruyan veri analizi ise, hassas veriler üzerinde faydalı hesaplamalara olanak tanırken, herhangi bir birey hakkında ne kadar bilgi edinilebileceğini sınırlayan daha geniş bir yöntem ailesini ifade etmektedir. Bu iki yaklaşım birlikte, sağlık verilerinin araştırma ve operasyonları desteklemesine olanak tanırken, yeniden kimliklendirme riskini de sınırlandırmaktadır.
Tanım
Kimliksizleştirme, bireylerin kolayca tanımlanamaması için verilerden tanımlayıcı bilgilerin çıkarılması veya değiştirilmesidir; gizliliği koruyan veri analizi ise, hassas verilerin analizine olanak tanıyan ve herhangi bir birey hakkında açıklanan bilgiyi sınırlayan teknikleri (resmi anonimleştirme modelleri ve gürültü tabanlı veya dağıtık hesaplama yöntemleri dahil) kapsamaktadır.
Kapsam
Bu madde, kimliksizleştirmenin gerekçesini, başlıca resmi gizlilik modellerini (k-anonimlik ve iyileştirmeleri ile diferansiyel gizlilik gibi), yeniden kimliklendirme riskinin sürekliliğini ve verileri merkezileştirmeden üzerinde hesaplama yapan gelişmekte olan yaklaşımları (federasyonlu öğrenme gibi) ele almaktadır. Bu kavramlar, referans ve eğitim amaçlı metodolojik yaklaşımlar olarak değerlendirilmekte olup, belirli bir veri kümesini kimliksizleştirmeye yönelik bir protokol veya yasal yeterlilik garantisi niteliği taşımamaktadır.
Temel sorular
- Bir kaydı tanımlanabilir kılan nedir ve tanımlanabilirlik nasıl azaltılabilir?
- k-anonimlik ve diferansiyel gizlilik gibi modeller hangi resmi garantileri sağlamaktadır?
- Kimliksizleştirilmiş verilerin yeniden kimliklendirilebilme riski ne kadar gerçektir?
- Veriler merkezileştirilmeden veya doğrudan paylaşılmadan nasıl analiz edilebilir?
- Gizlilik koruması ile veri faydası arasındaki denge nasıl yönetilmektedir?
Anahtar kavramlar
- Doğrudan tanımlayıcılar ve yarı-tanımlayıcılar
- Yeniden kimliklendirme riski
- Fayda-gizlilik dengesi
- Genelleştirme ve bastırma
- Gürültü ekleme ve rastgele yanıt
- Sentetik veri
- Federasyonlu ve dağıtık analiz
- Güvenli hesaplama
Temel kuramlar
- k-Anonimlik
- Bir veri kümesi, her bir kaydın bir dizi yarı-tanımlayıcı açısından en az k-1 diğer kayıttan ayırt edilemez olması durumunda k-anonimliği sağlamaktadır; böylece hiçbir birey k kişiden daha azı arasında tekil olarak belirlenememektedir. Bu model, görünüşte zararsız niteliklerin kombinasyonlarının insanları tanımlayabileceği sezgisini resmileştirmiştir.
- l-Çeşitlilik
- k-anonimliğin bir uzantısı olup, ayırt edilemez kayıtların her grubunun herhangi bir hassas özellik için en az l iyi temsil edilmiş değer içermesini gerektirmektedir. Bu, bir grup homojen olduğunda k-anonim verilerin hala hassas değerleri sızdırabileceği zayıflığını ele almaktadır.
- Diferansiyel gizlilik
- Bir analizin çıktısının, herhangi bir bireyin verisinin dahil edilip edilmemesinden neredeyse etkilenmediğine dair resmi bir garantidir; bu, kalibre edilmiş rastgele gürültü eklenerek sağlanır, böylece sonuçtan herhangi bir kişi hakkında çok az bilgi çıkarılabilmektedir.
Mekanizmalar
Kimliksizleştirme, doğrudan tanımlayıcıları kaldırarak ve bir araya geldiğinde bireyleri tekil hale getirebilecek yarı-tanımlayıcıları (yaş, posta kodu ve tarihler gibi) genelleştirerek veya bastırarak tanımlanabilirliği azaltmaktadır. Resmi modeller bu sürece test edilebilir garantiler sunmaktadır: k-anonimlik, her bir kaydın yarı-tanımlayıcılar açısından en az k-1 diğer kayıtla benzer olmasını gerektirmekte (Sweeney, 2002); l-çeşitlilik, her gruptaki hassas değerlerde çeşitliliği sağlayarak bu durumu güçlendirmekte (Machanavajjhala ve ark., 2007); diferansiyel gizlilik ise, kalibre edilmiş gürültü ekleyerek herhangi bir bireyin bir analiz üzerindeki etkisini sınırlamaktadır (Dwork ve ark., 2006). Detayların kaldırılması analitik faydayı azalttığı için, her yöntem gizlilik ve fayda arasında bir denge kurma çabasındadır. Tamamlayıcı bir yaklaşım ise verileri merkezi olmayan bir yapıda tutmaktadır: federasyonlu öğrenme, temel kayıtları taşımadan kurumlar arasında modelleri eğiterek, tanımlanabilir verilerin maruziyetini sınırlamaktadır (Rieke ve ark., 2020). Bu yaklaşımların hiçbiri risksiz değildir ve yeniden kimliklendirme, eksik veya seyrek örneklenmiş veri kümelerinde bile bazen başarılı olabilmektedir (Rocher ve ark., 2019).
Klinik önem
Kimliksizleştirme ve gizliliği koruyan analiz, klinik verilerin araştırma, kalite ölçümü ve halk sağlığı için büyük ölçekli ikincil kullanımını, tanımlanabilir kayıtları geniş çapta ifşa etmeden mümkün kılmaktadır. Kalan yeniden kimliklendirme riskinin farkında olmak, bu tür verilerin nasıl yönetileceği ve paylaşılacağı konusunda bilgi sağlamaktadır (Rocher ve ark., 2019). Bu madde, yöntemleri referans ve eğitim amaçlı tanımlamakta olup, belirli bir veri kümesinin yeterince kimliksizleştirildiğini veya yasalara uygun olduğunu onaylamamaktadır.
Kanıt ve kılavuzlar
Burada atıfta bulunulan resmi gizlilik modelleri, temel metodolojik katkılar olarak kabul edilmektedir (Sweeney, 2002; Machanavajjhala ve ark., 2007; Dwork ve ark., 2006). Ampirik çalışmalar, yeniden kimliklendirmenin bazı koşullar altında hala mümkün olduğunu göstermekte (Rocher ve ark., 2019), bu da federasyonlu öğrenme gibi dağıtık yaklaşımların sürekli gelişimini teşvik etmektedir (Rieke ve ark., 2020). Kimliksizleştirmeye yönelik düzenleyici standartlar (örneğin, HIPAA Güvenli Liman ve Uzman Belirleme yöntemleri) resmi kurallarda ayrı ayrı tanımlanmıştır ve uyumluluk amacıyla doğrudan incelenmelidir.
Tarihçe
İstatistiksel açıklama sınırlaması, resmi istatistiklerde uzun bir geçmişe sahip olmakla birlikte, detaylı elektronik kayıtların ve kamuya açık veri kümelerinin yaygınlaşmasıyla sağlık verilerinin kimliksizleştirilmesi aciliyet kazanmıştır. Sweeney'nin k-anonimliği (2002), alana etkili bir resmi model sunmuş ve yarı-tanımlayıcıların sözde anonim kayıtları nasıl yeniden kimliklendirebileceğini çarpıcı bir şekilde göstermiştir. l-çeşitlilik (2007) gibi sonraki iyileştirmeler, k-anonimliğin sınırlılıklarını ele almış ve diferansiyel gizlilik (2006), gizliliği yayımlanan veri kümesinin değil, analizin bir özelliği olarak yeniden çerçevelemiştir. Daha yakın tarihli çalışmalar hem kalıcı yeniden kimliklendirme riskini vurgulamış (2019) hem de merkezi olmayan analiz yöntemleri geliştirmiştir (2020).
Tartışmalar
- Kimliksizleştirilmiş sağlık verileri güvenli bir şekilde anonim kabul edilebilir mi?
- Bazıları, dikkatli kimliksizleştirmenin yeniden kimliklendirmeyi pratikte ihmal edilebilir hale getirdiğini savunurken, diğerleri yeniden kimliklendirmenin eksik veri kümelerinde bile başarılı olabileceğini göstermekte, bu da anonimliğin sabit bir garanti olmaktan ziyade bir derece ve bağlam meselesi olduğunu ima etmektedir.
İlgili konular
Temel eserler
- sweeney-2002
- dwork-2006
- machanavajjhala-2007
Sıkça sorulan sorular
- k-anonimlik ile diferansiyel gizlilik arasındaki fark nedir?
- k-anonimlik, yayımlanan bir veri kümesinin bir özelliğidir ve her bir kaydın yarı-tanımlayıcılar açısından en az k-1 diğer kayıttan ayırt edilemez olmasını sağlamaktadır. Diferansiyel gizlilik ise, bir analiz veya yayın mekanizmasının bir özelliğidir; kalibre edilmiş gürültü ekleyerek herhangi bir bireyin varlığının çıktıyı ne kadar değiştirebileceğini sınırlamaktadır. Bu iki yaklaşım gizliliği farklı şekillerde korumakta ve farklı amaçlar için kullanılabilmektedir.
- Kimliksizleştirme, yeniden kimliklendirme riskini tamamen ortadan kaldırır mı?
- Hayır. Kimliksizleştirme riski azaltmakla birlikte her zaman ortadan kaldırmamaktadır; araştırmalar, bireylerin kimliksizleştirilmiş veya eksik veri kümelerinden bazen yeniden kimliklendirilebileceğini göstermiştir, bu nedenle kalan riskin sıfır olduğu varsayılmak yerine değerlendirilmesi ve yönetilmesi gerekmektedir.