Anonimización y análisis de datos que preservan la privacidad
La anonimización es el proceso de eliminar o transformar información que podría identificar a individuos en un conjunto de datos de salud, de modo que los datos puedan ser utilizados y compartidos con un riesgo de privacidad reducido. El análisis de datos que preservan la privacidad es la familia más amplia de métodos que permiten la computación útil sobre datos sensibles, al tiempo que limitan cuánto se puede aprender sobre cualquier individuo. Juntos, permiten que los datos de salud apoyen la investigación y las operaciones, limitando la reidentificación.
Definition
La anonimización es la eliminación o alteración de información identificativa de los datos para que los individuos no sean fácilmente identificables; el análisis de datos que preservan la privacidad comprende técnicas (incluidos modelos formales de anonimización y métodos de computación basados en ruido o distribuidos) que permiten el análisis de datos sensibles, al tiempo que limitan la información divulgada sobre cualquier individuo.
Scope
Esta entrada cubre la justificación de la anonimización, los principales modelos formales de privacidad (como la k-anonimidad y sus refinamientos, y la privacidad diferencial), el riesgo persistente de reidentificación y los enfoques emergentes que computan sobre datos sin centralizarlos (como el aprendizaje federado). Los trata como conceptos metodológicos de referencia y educación, y no es un protocolo para anonimizar ningún conjunto de datos específico ni una garantía de suficiencia legal.
Core questions
- ¿Qué hace que un registro sea identificable y cómo se puede reducir la identificabilidad?
- ¿Qué garantías formales ofrecen modelos como la k-anonimidad y la privacidad diferencial?
- ¿Cuán real es el riesgo de que los datos anonimizados puedan ser reidentificados?
- ¿Cómo se pueden analizar los datos sin que estén centralizados o compartidos directamente?
- ¿Cómo se gestiona el equilibrio entre la protección de la privacidad y la utilidad de los datos?
Key concepts
- Identificadores directos versus cuasi-identificadores
- Riesgo de reidentificación
- Compromiso entre utilidad y privacidad
- Generalización y supresión
- Adición de ruido y respuesta aleatorizada
- Datos sintéticos
- Análisis federado y distribuido
- Computación segura
Key theories
- k-Anonimidad
- Un conjunto de datos satisface la k-anonimidad si cada registro es indistinguible de al menos otros k-1 con respecto a un conjunto de cuasi-identificadores, de modo que ningún individuo puede ser singularizado entre menos de k personas. Formalizó la intuición de que las combinaciones de atributos aparentemente inocuos pueden identificar a las personas.
- l-Diversidad
- Una extensión de la k-anonimidad que requiere que cada grupo de registros indistinguibles contenga al menos l valores bien representados para cualquier atributo sensible, abordando la debilidad de que los datos k-anónimos aún pueden filtrar valores sensibles cuando un grupo es homogéneo.
- Privacidad diferencial
- Una garantía formal de que el resultado de un análisis permanece casi inalterado, independientemente de si los datos de un solo individuo están incluidos o no, logrado mediante ruido aleatorio calibrado, de modo que se puede inferir poco sobre una persona a partir del resultado.
Mechanisms
La anonimización reduce la identificabilidad eliminando identificadores directos y generalizando o suprimiendo cuasi-identificadores (como la edad, el código postal y las fechas) que, en combinación, podrían singularizar a los individuos. Los modelos formales ofrecen garantías comprobables para este proceso: la k-anonimidad requiere que cada registro se mezcle con al menos k-1 otros en cuanto a cuasi-identificadores (Sweeney, 2002), la l-diversidad la refuerza asegurando variedad en los valores sensibles dentro de cada grupo (Machanavajjhala et al., 2007), y la privacidad diferencial limita la influencia de cualquier individuo en un análisis añadiendo ruido calibrado (Dwork et al., 2006). Dado que la eliminación de detalles reduce la utilidad analítica, cada método navega por un compromiso entre privacidad y utilidad. Una dirección complementaria mantiene los datos descentralizados: el aprendizaje federado entrena modelos en diferentes instituciones sin mover los registros subyacentes, limitando la exposición de datos identificables (Rieke et al., 2020). Ninguno de estos enfoques está exento de riesgos, y la reidentificación a veces puede tener éxito incluso en conjuntos de datos incompletos o muestreados escasamente (Rocher et al., 2019).
Clinical relevance
La anonimización y el análisis que preserva la privacidad son lo que hacen factible el uso secundario a gran escala de datos clínicos para la investigación, la medición de la calidad y la salud pública, sin exponer ampliamente los registros identificables. La conciencia del riesgo residual de reidentificación informa cómo se gobiernan y comparten dichos datos (Rocher et al., 2019). Esta entrada describe los métodos para referencia y educación, y no certifica ningún conjunto de datos particular como adecuadamente anonimizado o legalmente conforme.
Evidence & guidelines
Los modelos formales de privacidad citados aquí son contribuciones metodológicas fundamentales (Sweeney, 2002; Machanavajjhala et al., 2007; Dwork et al., 2006). El trabajo empírico demuestra que la reidentificación sigue siendo factible bajo algunas condiciones (Rocher et al., 2019), lo que motiva el desarrollo continuo de enfoques distribuidos como el aprendizaje federado (Rieke et al., 2020). Los estándares regulatorios para la anonimización (por ejemplo, los métodos HIPAA Safe Harbor y Expert Determination) se definen por separado en las normas oficiales y deben consultarse directamente para fines de cumplimiento.
History
La limitación de la divulgación estadística tiene una larga historia en las estadísticas oficiales, pero la anonimización de datos de salud ganó urgencia a medida que proliferaron los registros electrónicos detallados y los conjuntos de datos públicos. La k-anonimidad de Sweeney (2002) dio al campo un modelo formal influyente e ilustró de manera famosa cómo los cuasi-identificadores podían reidentificar registros supuestamente anónimos. Refinamientos posteriores como la l-diversidad (2007) abordaron sus límites, y la privacidad diferencial (2006) replanteó la privacidad como una propiedad del análisis en lugar del conjunto de datos publicado. Trabajos más recientes han destacado tanto el riesgo persistente de reidentificación (2019) como el desarrollo de métodos de análisis descentralizados (2020).
Debates
- ¿Se pueden considerar los datos de salud anonimizados como seguros y anónimos?
- Algunos argumentan que una anonimización cuidadosa hace que la reidentificación sea insignificante en la práctica, mientras que otros demuestran que la reidentificación puede tener éxito incluso en conjuntos de datos incompletos, lo que implica que el anonimato es una cuestión de grado y contexto, más que una garantía fija.
Related topics
Seminal works
- sweeney-2002
- dwork-2006
- machanavajjhala-2007
Frequently asked questions
- ¿Cuál es la diferencia entre k-anonimidad y privacidad diferencial?
- La k-anonimidad es una propiedad de un conjunto de datos publicado, que asegura que cada registro es indistinguible de al menos otros k-1 en cuanto a cuasi-identificadores. La privacidad diferencial es una propiedad de un análisis o mecanismo de publicación, que limita cuánto la presencia de un solo individuo puede cambiar el resultado añadiendo ruido calibrado. Protegen la privacidad de diferentes maneras y pueden usarse para distintos propósitos.
- ¿La anonimización elimina por completo el riesgo de reidentificación?
- No. La anonimización reduce, pero no siempre elimina el riesgo; la investigación ha demostrado que los individuos a veces pueden ser reidentificados a partir de conjuntos de datos anonimizados o incompletos, por lo que el riesgo residual debe evaluarse y gestionarse en lugar de asumirse como cero.