Desidentificação e Análise de Dados com Preservação da Privacidade
A desidentificação é o processo de remover ou transformar informações que poderiam identificar indivíduos em um conjunto de dados de saúde, de modo que os dados possam ser usados e compartilhados com risco reduzido à privacidade. A análise de dados com preservação da privacidade é a família mais ampla de métodos que permitem computação útil sobre dados sensíveis, ao mesmo tempo em que limitam o quanto pode ser aprendido sobre qualquer indivíduo. Juntos, eles permitem que os dados de saúde apoiem a pesquisa e as operações, limitando a reidentificação.
Definition
A desidentificação é a remoção ou alteração de informações de identificação dos dados para que os indivíduos não sejam facilmente identificáveis; a análise de dados com preservação da privacidade compreende técnicas (incluindo modelos formais de anonimização e métodos de computação baseados em ruído ou distribuídos) que permitem a análise de dados sensíveis, ao mesmo tempo em que limitam as informações divulgadas sobre qualquer indivíduo.
Scope
Esta entrada abrange a justificativa para a desidentificação, os principais modelos formais de privacidade (como k-anonimato e seus refinamentos, e privacidade diferencial), o risco persistente de reidentificação e abordagens emergentes que computam sobre dados sem centralizá-los (como aprendizado federado). Ela trata esses conceitos como metodológicos para referência e educação e não é um protocolo para desidentificar qualquer conjunto de dados específico ou uma garantia de suficiência legal.
Core questions
- O que torna um registro identificável e como a identificabilidade pode ser reduzida?
- Que garantias formais os modelos como k-anonimato e privacidade diferencial fornecem?
- Quão real é o risco de que dados desidentificados possam ser reidentificados?
- Como os dados podem ser analisados sem serem centralizados ou compartilhados diretamente?
- Como é gerenciada a troca entre proteção da privacidade e utilidade dos dados?
Key concepts
- Identificadores diretos versus quase-identificadores
- Risco de reidentificação
- Troca entre utilidade e privacidade
- Generalização e supressão
- Adição de ruído e resposta randomizada
- Dados sintéticos
- Análise federada e distribuída
- Computação segura
Key theories
- k-Anonimato
- Um conjunto de dados satisfaz o k-anonimato se cada registro for indistinguível de pelo menos k-1 outros em relação a um conjunto de quase-identificadores, de modo que nenhum indivíduo possa ser isolado entre menos de k pessoas. Formalizou a intuição de que combinações de atributos aparentemente inócuos podem identificar pessoas.
- l-Diversidade
- Uma extensão do k-anonimato que exige que cada grupo de registros indistinguíveis contenha pelo menos l valores bem representados para qualquer atributo sensível, abordando a fraqueza de que dados k-anônimos ainda podem vazar valores sensíveis quando um grupo é homogêneo.
- Privacidade diferencial
- Uma garantia formal de que o resultado de uma análise é quase inalterado, quer os dados de um único indivíduo sejam incluídos ou não, alcançada por ruído aleatório calibrado, de modo que pouco pode ser inferido sobre qualquer pessoa a partir do resultado.
Mechanisms
A desidentificação reduz a identificabilidade removendo identificadores diretos e generalizando ou suprimindo quase-identificadores (como idade, CEP e datas) que, em combinação, poderiam identificar indivíduos. Modelos formais dão a este processo garantias testáveis: k-anonimato exige que cada registro se misture com pelo menos k-1 outros em quase-identificadores (Sweeney, 2002), l-diversidade o fortalece garantindo variedade em valores sensíveis dentro de cada grupo (Machanavajjhala et al., 2007), e privacidade diferencial limita a influência de qualquer indivíduo em uma análise adicionando ruído calibrado (Dwork et al., 2006). Como a remoção de detalhes reduz a utilidade analítica, todo método navega por uma troca entre privacidade e utilidade. Uma direção complementar mantém os dados descentralizados: o aprendizado federado treina modelos em várias instituições sem mover os registros subjacentes, limitando a exposição de dados identificáveis (Rieke et al., 2020). Nenhuma dessas abordagens é livre de riscos, e a reidentificação pode, por vezes, ser bem-sucedida mesmo em conjuntos de dados incompletos ou amostrados esparsamente (Rocher et al., 2019).
Clinical relevance
A desidentificação e a análise com preservação da privacidade são o que tornam viável o uso secundário em larga escala de dados clínicos para pesquisa, medição de qualidade e saúde pública, sem expor amplamente registros identificáveis. A conscientização sobre o risco residual de reidentificação informa como esses dados são governados e compartilhados (Rocher et al., 2019). Esta entrada descreve os métodos para referência e educação e não certifica nenhum conjunto de dados específico como adequadamente desidentificado ou legalmente compatível.
Evidence & guidelines
Os modelos formais de privacidade aqui citados são contribuições metodológicas fundamentais (Sweeney, 2002; Machanavajjhala et al., 2007; Dwork et al., 2006). Trabalhos empíricos demonstram que a reidentificação permanece viável sob algumas condições (Rocher et al., 2019), motivando o desenvolvimento contínuo de abordagens distribuídas, como o aprendizado federado (Rieke et al., 2020). Os padrões regulatórios para desidentificação (por exemplo, os métodos HIPAA Safe Harbor e Expert Determination) são definidos separadamente em regras oficiais e devem ser consultados diretamente para fins de conformidade.
History
A limitação estatística de divulgação tem uma longa história nas estatísticas oficiais, mas a desidentificação de dados de saúde ganhou urgência à medida que registros eletrônicos detalhados e conjuntos de dados públicos proliferaram. O k-anonimato de Sweeney (2002) deu ao campo um modelo formal influente e ilustrou de forma famosa como quase-identificadores poderiam reidentificar registros supostamente anônimos. Refinamentos subsequentes, como l-diversidade (2007), abordaram seus limites, e a privacidade diferencial (2006) reformulou a privacidade como uma propriedade da análise, e não do conjunto de dados liberado. Trabalhos mais recentes destacaram o risco persistente de reidentificação (2019) e desenvolveram métodos de análise descentralizados (2020).
Debates
- Dados de saúde desidentificados podem ser considerados totalmente anônimos?
- Alguns argumentam que a desidentificação cuidadosa torna a reidentificação insignificante na prática, enquanto outros mostram que a reidentificação pode ser bem-sucedida mesmo em conjuntos de dados incompletos, implicando que o anonimato é uma questão de grau e contexto, e não uma garantia fixa.
Related topics
Seminal works
- sweeney-2002
- dwork-2006
- machanavajjhala-2007
Frequently asked questions
- Qual é a diferença entre k-anonimato e privacidade diferencial?
- k-anonimato é uma propriedade de um conjunto de dados liberado, garantindo que cada registro seja indistinguível de pelo menos k-1 outros em quase-identificadores. A privacidade diferencial é uma propriedade de um mecanismo de análise ou liberação, limitando o quanto a presença de qualquer indivíduo pode alterar a saída, adicionando ruído calibrado. Eles protegem a privacidade de diferentes maneiras e podem ser usados para diferentes propósitos.
- A desidentificação elimina completamente o risco de reidentificação?
- Não. A desidentificação reduz, mas nem sempre elimina o risco; pesquisas mostram que indivíduos podem, por vezes, ser reidentificados a partir de conjuntos de dados desidentificados ou incompletos, portanto, o risco residual deve ser avaliado e gerenciado, em vez de ser considerado nulo.