ScholarGate
Assistent

De-Identifizierung und datenschutzfreundliche Datenanalyse

De-Identifizierung ist der Prozess des Entfernens oder Transformierens von Informationen, die Individuen in einem Gesundheitsdatensatz identifizieren könnten, sodass die Daten mit reduziertem Datenschutzrisiko genutzt und geteilt werden können. Datenschutzfreundliche Datenanalyse ist die umfassendere Familie von Methoden, die eine nützliche Berechnung über sensible Daten ermöglichen, während begrenzt wird, wie viel über eine einzelne Person gelernt werden kann. Zusammen ermöglichen sie es Gesundheitsdaten, Forschung und Operationen zu unterstützen, während die Re-Identifizierung begrenzt wird.

Thema finden mit PaperMindDemnächstFind papers & topics
Tools & resources
Folien herunterladen
Learn & explore
VideoDemnächst

Definition

De-Identifizierung ist das Entfernen oder Ändern von identifizierenden Informationen aus Daten, sodass Individuen nicht ohne Weiteres identifizierbar sind; datenschutzfreundliche Datenanalyse umfasst Techniken (einschließlich formaler Anonymisierungsmodelle und rauschbasierter oder verteilter Berechnungsmethoden), die die Analyse sensibler Daten ermöglichen, während die über eine einzelne Person offengelegten Informationen begrenzt werden.

Scope

Dieser Eintrag behandelt die Begründung für die De-Identifizierung, die wichtigsten formalen Datenschutzmodelle (wie k-Anonymität und ihre Verfeinerungen sowie Differential Privacy), das persistente Risiko der Re-Identifizierung und neue Ansätze, die Daten verarbeiten, ohne sie zu zentralisieren (wie Federated Learning). Er behandelt diese als methodologische Konzepte zur Referenz und Bildung und ist kein Protokoll zur De-Identifizierung eines spezifischen Datensatzes oder eine Garantie für die rechtliche Angemessenheit.

Core questions

  • Was macht einen Datensatz identifizierbar und wie kann die Identifizierbarkeit reduziert werden?
  • Welche formalen Garantien bieten Modelle wie k-Anonymität und Differential Privacy?
  • Wie real ist das Risiko, dass de-identifizierte Daten re-identifiziert werden können?
  • Wie können Daten analysiert werden, ohne zentralisiert oder direkt geteilt zu werden?
  • Wie wird der Kompromiss zwischen Datenschutz und Datennutzen gehandhabt?

Key concepts

  • Direkte Identifikatoren versus Quasi-Identifikatoren
  • Re-Identifizierungsrisiko
  • Nutzen-Datenschutz-Kompromiss
  • Generalisierung und Unterdrückung
  • Rauschzugabe und randomisierte Antwort
  • Synthetische Daten
  • Föderierte und verteilte Analyse
  • Sichere Berechnung

Key theories

k-Anonymität
Ein Datensatz erfüllt k-Anonymität, wenn jeder Datensatz in Bezug auf eine Reihe von Quasi-Identifikatoren von mindestens k-1 anderen nicht zu unterscheiden ist, sodass keine Person unter weniger als k Personen herausgegriffen werden kann. Es formalisierte die Intuition, dass Kombinationen scheinbar harmloser Attribute Personen identifizieren können.
l-Diversität
Eine Erweiterung der k-Anonymität, die erfordert, dass jede Gruppe ununterscheidbarer Datensätze mindestens l gut repräsentierte Werte für jedes sensible Attribut enthält, wodurch die Schwäche behoben wird, dass k-anonyme Daten immer noch sensible Werte preisgeben können, wenn eine Gruppe homogen ist.
Differential Privacy
Eine formale Garantie, dass das Ergebnis einer Analyse nahezu unverändert bleibt, unabhängig davon, ob die Daten einer einzelnen Person enthalten sind oder nicht, erreicht durch kalibriertes Zufallsrauschen, sodass aus dem Ergebnis wenig über eine einzelne Person geschlossen werden kann.

Mechanisms

De-Identifizierung reduziert die Identifizierbarkeit durch das Entfernen direkter Identifikatoren und durch die Generalisierung oder Unterdrückung von Quasi-Identifikatoren (wie Alter, Postleitzahl und Daten), die in Kombination Individuen eindeutig identifizieren könnten. Formale Modelle geben diesem Prozess überprüfbare Garantien: k-Anonymität erfordert, dass jeder Datensatz mit mindestens k-1 anderen Datensätzen bei Quasi-Identifikatoren übereinstimmt (Sweeney, 2002), l-Diversität verstärkt dies, indem sie die Vielfalt sensibler Werte innerhalb jeder Gruppe sicherstellt (Machanavajjhala et al., 2007), und Differential Privacy begrenzt den Einfluss einer einzelnen Person auf eine Analyse durch Hinzufügen von kalibriertem Rauschen (Dwork et al., 2006). Da das Entfernen von Details die analytische Nützlichkeit reduziert, navigiert jede Methode einen Kompromiss zwischen Datenschutz und Nutzen. Ein komplementärer Ansatz hält Daten dezentralisiert: Federated Learning trainiert Modelle über Institutionen hinweg, ohne die zugrunde liegenden Datensätze zu verschieben, wodurch die Exposition identifizierbarer Daten begrenzt wird (Rieke et al., 2020). Keiner dieser Ansätze ist risikofrei, und eine Re-Identifizierung kann manchmal selbst bei unvollständigen oder spärlich gesampelten Datensätzen erfolgreich sein (Rocher et al., 2019).

Clinical relevance

De-Identifizierung und datenschutzfreundliche Analyse ermöglichen die groß angelegte Sekundärnutzung klinischer Daten für Forschung, Qualitätsmessung und öffentliche Gesundheit, ohne identifizierbare Datensätze umfassend offenzulegen. Das Bewusstsein für das Restrisiko der Re-Identifizierung beeinflusst, wie solche Daten verwaltet und geteilt werden (Rocher et al., 2019). Dieser Eintrag beschreibt die Methoden zu Referenz- und Bildungszwecken und zertifiziert keinen bestimmten Datensatz als ausreichend de-identifiziert oder rechtlich konform.

Evidence & guidelines

Die hier zitierten formalen Datenschutzmodelle sind grundlegende methodologische Beiträge (Sweeney, 2002; Machanavajjhala et al., 2007; Dwork et al., 2006). Empirische Arbeiten zeigen, dass eine Re-Identifizierung unter bestimmten Bedingungen weiterhin möglich ist (Rocher et al., 2019), was die fortlaufende Entwicklung verteilter Ansätze wie Federated Learning motiviert (Rieke et al., 2020). Regulatorische Standards für die De-Identifizierung (zum Beispiel die HIPAA Safe Harbor und Expert Determination Methoden) sind in offiziellen Regeln separat definiert und sollten für Compliance-Zwecke direkt konsultiert werden.

History

Die statistische Offenlegungsbegrenzung hat eine lange Geschichte in der amtlichen Statistik, aber die De-Identifizierung von Gesundheitsdaten gewann an Dringlichkeit, als detaillierte elektronische Aufzeichnungen und öffentliche Datensätze sich verbreiteten. Sweeneys k-Anonymität (2002) gab dem Feld ein einflussreiches formales Modell und illustrierte auf berühmte Weise, wie Quasi-Identifikatoren angeblich anonyme Datensätze re-identifizieren konnten. Nachfolgende Verfeinerungen wie l-Diversität (2007) adressierten ihre Grenzen, und Differential Privacy (2006) definierte den Datenschutz als eine Eigenschaft der Analyse und nicht des veröffentlichten Datensatzes neu. Neuere Arbeiten haben sowohl das anhaltende Re-Identifizierungsrisiko (2019) hervorgehoben als auch dezentrale Analysemethoden (2020) entwickelt.

Debates

Können de-identifizierte Gesundheitsdaten jemals als sicher anonym betrachtet werden?
Einige argumentieren, dass eine sorgfältige De-Identifizierung die Re-Identifizierung in der Praxis vernachlässigbar macht, während andere zeigen, dass eine Re-Identifizierung selbst bei unvollständigen Datensätzen erfolgreich sein kann, was impliziert, dass Anonymität eher eine Frage des Grades und des Kontexts als eine feste Garantie ist.

Related topics

Seminal works

  • sweeney-2002
  • dwork-2006
  • machanavajjhala-2007

Frequently asked questions

Was ist der Unterschied zwischen k-Anonymität und Differential Privacy?
k-Anonymität ist eine Eigenschaft eines veröffentlichten Datensatzes, die sicherstellt, dass jeder Datensatz in Bezug auf Quasi-Identifikatoren von mindestens k-1 anderen nicht zu unterscheiden ist. Differential Privacy ist eine Eigenschaft eines Analyse- oder Freigabemechanismus, die begrenzt, wie stark die Anwesenheit einer einzelnen Person das Ergebnis durch Hinzufügen von kalibriertem Rauschen ändern kann. Sie schützen die Privatsphäre auf unterschiedliche Weise und können für verschiedene Zwecke verwendet werden.
Eliminiert die De-Identifizierung das Re-Identifizierungsrisiko vollständig?
Nein. Die De-Identifizierung reduziert das Risiko, eliminiert es aber nicht immer vollständig; die Forschung hat gezeigt, dass Individuen manchmal aus de-identifizierten oder unvollständigen Datensätzen re-identifiziert werden können, sodass ein Restrisiko bewertet und verwaltet werden muss, anstatt es als null anzunehmen.

Methods for this concept

Related concepts