ScholarGate
助手

去识别化与隐私保护数据分析

去识别化是指从健康数据集中移除或转换可识别个体的信息,从而降低隐私风险,使数据能够被使用和共享的过程。隐私保护数据分析是更广泛的方法家族,它允许在敏感数据上进行有用的计算,同时限制了可以从任何个体身上获取的信息量。它们共同使得健康数据能够支持研究和操作,同时限制了再识别的风险。

用 PaperMind 寻找选题即将推出Find papers & topics
Tools & resources
下载幻灯片
Learn & explore
视频即将推出

Definition

去识别化是指从数据中移除或修改识别信息,使个体不易被识别;隐私保护数据分析包括各种技术(包括正式的匿名化模型和基于噪声或分布式计算方法),这些技术使得敏感数据分析成为可能,同时限制了关于任何个体所披露的信息。

Scope

本条目涵盖了去识别化的基本原理、主要的正式隐私模型(如k-匿名及其改进,以及差分隐私)、再识别的持续风险,以及在不集中化数据的情况下进行计算的新兴方法(如联邦学习)。它将这些作为参考和教育的方法论概念来处理,而不是针对任何特定数据集进行去识别化的协议,也不是法律充分性的保证。

Core questions

  • 什么使记录可识别,以及如何降低可识别性?
  • k-匿名和差分隐私等模型提供了哪些正式保证?
  • 去识别化数据被再识别的风险有多大?
  • 如何在不集中化或直接共享数据的情况下进行数据分析?
  • 如何管理隐私保护和数据效用之间的权衡?

Key concepts

  • 直接标识符与准标识符
  • 再识别风险
  • 效用-隐私权衡
  • 泛化和抑制
  • 噪声添加和随机响应
  • 合成数据
  • 联邦和分布式分析
  • 安全计算

Key theories

k-匿名
如果数据集中的每条记录在准标识符方面与至少k-1条其他记录无法区分,那么该数据集就满足k-匿名,这样任何个体都不能在少于k个人中被单独识别出来。它将看似无害的属性组合可以识别人的直觉形式化了。
l-多样性
k-匿名的一个扩展,要求每组无法区分的记录对于任何敏感属性都包含至少l个充分代表的值,解决了k-匿名数据在组内同质时仍可能泄露敏感值的弱点。
差分隐私
一种正式保证,通过校准随机噪声,分析的输出几乎不受任何个体数据是否包含在内的影响,因此从结果中几乎无法推断出任何一个人的信息。

Mechanisms

去识别化通过移除直接标识符以及泛化或抑制准标识符(如年龄、邮政编码和日期)来降低可识别性,这些准标识符组合起来可能会识别出个体。正式模型为这一过程提供了可测试的保证:k-匿名要求每条记录在准标识符上至少与k-1条其他记录混合在一起(Sweeney, 2002),l-多样性通过确保每个组内敏感值的多样性来加强它(Machanavajjhala et al., 2007),差分隐私通过添加校准噪声来限制任何个体对分析的影响(Dwork et al., 2006)。由于移除细节会降低分析的有用性,每种方法都在隐私和效用之间进行权衡。一个互补的方向是保持数据去中心化:联邦学习在不移动底层记录的情况下跨机构训练模型,限制了可识别数据的暴露(Rieke et al., 2020)。这些方法都不是没有风险的,即使在不完整或稀疏采样的数据集上,再识别有时也能成功(Rocher et al., 2019)。

Clinical relevance

去识别化和隐私保护分析使得临床数据的大规模二次利用(用于研究、质量测量和公共卫生)成为可能,而无需广泛暴露可识别记录。对残余再识别风险的认识有助于指导此类数据的管理和共享方式(Rocher et al., 2019)。本条目描述这些方法仅供参考和教育,并不证明任何特定数据集已充分去识别化或符合法律规定。

Evidence & guidelines

此处引用的正式隐私模型是基础性的方法论贡献(Sweeney, 2002; Machanavajjhala et al., 2007; Dwork et al., 2006)。实证研究表明,在某些条件下再识别仍然可行(Rocher et al., 2019),这促使了联邦学习等分布式方法的持续发展(Rieke et al., 2020)。去识别化的监管标准(例如,HIPAA安全港和专家判定方法)在官方规则中单独定义,应直接查阅以了解合规性目的。

History

统计披露限制在官方统计中历史悠久,但随着详细电子记录和公共数据集的激增,健康数据去识别化变得日益紧迫。Sweeney的k-匿名(2002)为该领域提供了一个有影响力的正式模型,并著名地说明了准标识符如何能够再识别所谓的匿名记录。随后的改进,如l-多样性(2007),解决了其局限性,而差分隐私(2006)将隐私重新定义为分析而非发布数据集的属性。最近的工作既强调了持续存在的再识别风险(2019),也开发了去中心化分析方法(2020)。

Debates

去识别化的健康数据能否被认为是绝对安全的匿名数据?
一些人认为,仔细的去识别化使得再识别在实践中可以忽略不计,而另一些人则表明,即使在不完整的数据集上,再识别也可能成功,这意味着匿名性是一个程度和上下文的问题,而不是一个固定的保证。

Related topics

Seminal works

  • sweeney-2002
  • dwork-2006
  • machanavajjhala-2007

Frequently asked questions

k-匿名和差分隐私有什么区别?
k-匿名是已发布数据集的一个属性,确保每条记录在准标识符上与至少k-1条其他记录无法区分。差分隐私是分析或发布机制的一个属性,通过添加校准噪声来限制任何个体存在对输出的改变程度。它们以不同的方式保护隐私,可用于不同的目的。
去识别化是否完全消除了再识别风险?
否。去识别化降低但并非总是消除风险;研究表明,有时可以从去识别化或不完整的数据集中再识别出个体,因此必须评估和管理残余风险,而不是假定其为零。

Methods for this concept

Related concepts