Désidentification et analyse de données préservant la confidentialité
La désidentification est le processus de suppression ou de transformation d'informations susceptibles d'identifier des individus dans un ensemble de données de santé, afin que ces données puissent être utilisées et partagées avec un risque réduit pour la confidentialité. L'analyse de données préservant la confidentialité est une famille plus large de méthodes qui permettent des calculs utiles sur des données sensibles tout en limitant la quantité d'informations pouvant être apprises sur un individu donné. Ensemble, elles permettent aux données de santé de soutenir la recherche et les opérations tout en limitant la réidentification.
Definition
La désidentification est la suppression ou la modification d'informations identifiantes des données afin que les individus ne soient pas facilement identifiables ; l'analyse de données préservant la confidentialité comprend des techniques (y compris des modèles formels d'anonymisation et des méthodes de calcul basées sur le bruit ou distribuées) qui permettent l'analyse de données sensibles tout en limitant les informations divulguées sur tout individu.
Scope
Cette entrée aborde la justification de la désidentification, les principaux modèles formels de confidentialité (tels que la k-anonymat et ses raffinements, et la confidentialité différentielle), le risque persistant de réidentification, et les approches émergentes qui effectuent des calculs sur les données sans les centraliser (telles que l'apprentissage fédéré). Elle traite ces concepts comme des notions méthodologiques à des fins de référence et d'éducation, et ne constitue ni un protocole pour la désidentification d'un ensemble de données spécifique, ni une garantie de conformité légale.
Core questions
- Qu'est-ce qui rend un enregistrement identifiable, et comment l'identifiabilité peut-elle être réduite ?
- Quelles garanties formelles les modèles tels que la k-anonymat et la confidentialité différentielle offrent-ils ?
- Quel est le risque réel que des données désidentifiées puissent être réidentifiées ?
- Comment les données peuvent-elles être analysées sans être centralisées ou directement partagées ?
- Comment est géré le compromis entre la protection de la vie privée et l'utilité des données ?
Key concepts
- Identifiants directs versus quasi-identifiants
- Risque de réidentification
- Compromis utilité-confidentialité
- Généralisation et suppression
- Ajout de bruit et réponse aléatoire
- Données synthétiques
- Analyse fédérée et distribuée
- Calcul sécurisé
Key theories
- k-Anonymat
- Un ensemble de données satisfait la k-anonymat si chaque enregistrement est indiscernable d'au moins k-1 autres en ce qui concerne un ensemble de quasi-identifiants, de sorte qu'aucun individu ne peut être singularisé parmi moins de k personnes. Ce concept a formalisé l'intuition selon laquelle des combinaisons d'attributs apparemment inoffensifs peuvent identifier des personnes.
- l-Diversité
- Une extension de la k-anonymat exigeant que chaque groupe d'enregistrements indiscernables contienne au moins l valeurs bien représentées pour tout attribut sensible, remédiant à la faiblesse selon laquelle les données k-anonymes peuvent encore divulguer des valeurs sensibles lorsqu'un groupe est homogène.
- Confidentialité différentielle
- Une garantie formelle que le résultat d'une analyse est presque inchangé, que les données d'un individu donné soient incluses ou non, obtenue par l'ajout d'un bruit aléatoire calibré, de sorte que peu d'informations peuvent être déduites sur une personne en particulier à partir du résultat.
Mechanisms
La désidentification réduit l'identifiabilité en supprimant les identifiants directs et en généralisant ou en supprimant les quasi-identifiants (tels que l'âge, le code postal et les dates) qui, combinés, pourraient singulariser des individus. Les modèles formels confèrent à ce processus des garanties vérifiables : la k-anonymat exige que chaque enregistrement se fonde dans au moins k-1 autres sur les quasi-identifiants (Sweeney, 2002), la l-diversité la renforce en assurant une variété de valeurs sensibles au sein de chaque groupe (Machanavajjhala et al., 2007), et la confidentialité différentielle limite l'influence de tout individu sur une analyse en ajoutant un bruit calibré (Dwork et al., 2006). Étant donné que la suppression de détails réduit l'utilité analytique, chaque méthode gère un compromis entre confidentialité et utilité. Une approche complémentaire maintient les données décentralisées : l'apprentissage fédéré entraîne des modèles à travers les institutions sans déplacer les enregistrements sous-jacents, limitant ainsi l'exposition des données identifiables (Rieke et al., 2020). Aucune de ces approches n'est exempte de risques, et la réidentification peut parfois réussir même sur des ensembles de données incomplets ou échantillonnés de manière clairsemée (Rocher et al., 2019).
Clinical relevance
La désidentification et l'analyse préservant la confidentialité rendent possible l'utilisation secondaire à grande échelle de données cliniques pour la recherche, la mesure de la qualité et la santé publique, sans exposer largement les dossiers identifiables. La prise de conscience du risque résiduel de réidentification éclaire la manière dont ces données sont régies et partagées (Rocher et al., 2019). Cette entrée décrit les méthodes à des fins de référence et d'éducation et ne certifie pas qu'un ensemble de données particulier est adéquatement désidentifié ou légalement conforme.
Evidence & guidelines
Les modèles formels de confidentialité cités ici sont des contributions méthodologiques fondamentales (Sweeney, 2002; Machanavajjhala et al., 2007; Dwork et al., 2006). Des travaux empiriques démontrent que la réidentification reste faisable dans certaines conditions (Rocher et al., 2019), motivant le développement continu d'approches distribuées telles que l'apprentissage fédéré (Rieke et al., 2020). Les normes réglementaires pour la désidentification (par exemple, les méthodes HIPAA Safe Harbor et Expert Determination) sont définies séparément dans les règles officielles et doivent être consultées directement à des fins de conformité.
History
La limitation de la divulgation statistique a une longue histoire dans les statistiques officielles, mais la désidentification des données de santé a pris de l'urgence à mesure que les dossiers électroniques détaillés et les ensembles de données publics proliféraient. La k-anonymat de Sweeney (2002) a fourni au domaine un modèle formel influent et a illustré de manière célèbre comment les quasi-identifiants pouvaient réidentifier des enregistrements prétendument anonymes. Des raffinements ultérieurs tels que la l-diversité (2007) ont abordé ses limites, et la confidentialité différentielle (2006) a recadré la confidentialité comme une propriété de l'analyse plutôt que de l'ensemble de données publié. Des travaux plus récents ont à la fois mis en évidence le risque persistant de réidentification (2019) et développé des méthodes d'analyse décentralisées (2020).
Debates
- Les données de santé désidentifiées peuvent-elles être considérées comme anonymes en toute sécurité ?
- Certains soutiennent qu'une désidentification minutieuse rend la réidentification négligeable en pratique, tandis que d'autres montrent que la réidentification peut réussir même sur des ensembles de données incomplets, ce qui implique que l'anonymat est une question de degré et de contexte plutôt qu'une garantie fixe.
Related topics
Seminal works
- sweeney-2002
- dwork-2006
- machanavajjhala-2007
Frequently asked questions
- Quelle est la différence entre la k-anonymat et la confidentialité différentielle ?
- La k-anonymat est une propriété d'un ensemble de données publié, garantissant que chaque enregistrement est indiscernable d'au moins k-1 autres sur les quasi-identifiants. La confidentialité différentielle est une propriété d'une analyse ou d'un mécanisme de publication, limitant l'ampleur de l'impact de la présence d'un individu sur le résultat en ajoutant un bruit calibré. Elles protègent la confidentialité de différentes manières et peuvent être utilisées à des fins diverses.
- La désidentification élimine-t-elle entièrement le risque de réidentification ?
- Non. La désidentification réduit mais n'élimine pas toujours le risque ; la recherche a montré que des individus peuvent parfois être réidentifiés à partir d'ensembles de données désidentifiés ou incomplets, de sorte que le risque résiduel doit être évalué et géré plutôt que d'être considéré comme nul.
Methods for this concept
Related concepts
- Confidentialité des données, sécurité et conformité réglementaire
- Confidentialité, sécurité et conformité en informatique de la santé
- Réglementation et Gouvernance Internationales des Données de Santé
- Confidentialité génétique et protection des données
- Gestion et analyse des données de santé
- Règles de confidentialité et de sécurité de l'HIPAA