ScholarGate
Ассистент

Деидентификация и анализ данных с сохранением конфиденциальности

Деидентификация — это процесс удаления или преобразования информации, которая могла бы идентифицировать отдельных лиц в наборе медицинских данных, с тем чтобы эти данные можно было использовать и распространять с пониженным риском для конфиденциальности. Анализ данных с сохранением конфиденциальности — это более широкое семейство методов, которые позволяют выполнять полезные вычисления над конфиденциальными данными, ограничивая при этом объем информации, которую можно узнать о любом отдельном лице. Вместе они позволяют медицинским данным поддерживать исследования и операции, ограничивая при этом повторную идентификацию.

Найти тему в PaperMindСкороFind papers & topics
Tools & resources
Скачать слайды
Learn & explore
ВидеоСкоро

Definition

Деидентификация — это удаление или изменение идентифицирующей информации из данных таким образом, чтобы отдельные лица не могли быть легко идентифицированы; анализ данных с сохранением конфиденциальности включает методы (включая формальные модели анонимизации и методы, основанные на шуме или распределенных вычислениях), которые позволяют анализировать конфиденциальные данные, ограничивая при этом информацию, раскрываемую о любом отдельном лице.

Scope

Эта статья охватывает обоснование деидентификации, основные формальные модели конфиденциальности (такие как k-анонимность и ее уточнения, а также дифференциальная конфиденциальность), постоянный риск повторной идентификации и новые подходы, которые выполняют вычисления над данными без их централизации (такие как федеративное обучение). Она рассматривает их как методологические концепции для справки и обучения и не является протоколом для деидентификации какого-либо конкретного набора данных или гарантией юридической достаточности.

Core questions

  • Что делает запись идентифицируемой и как можно снизить идентифицируемость?
  • Какие формальные гарантии предоставляют такие модели, как k-анонимность и дифференциальная конфиденциальность?
  • Насколько реален риск того, что деидентифицированные данные могут быть повторно идентифицированы?
  • Как можно анализировать данные, не централизуя и не передавая их напрямую?
  • Как управляется компромисс между защитой конфиденциальности и полезностью данных?

Key concepts

  • Прямые идентификаторы против квазиидентификаторов
  • Риск повторной идентификации
  • Компромисс между полезностью и конфиденциальностью
  • Обобщение и подавление
  • Добавление шума и рандомизированный ответ
  • Синтетические данные
  • Федеративный и распределенный анализ
  • Безопасные вычисления

Key theories

k-Анонимность
Набор данных удовлетворяет k-анонимности, если каждая запись неотличима по крайней мере от k-1 других в отношении набора квазиидентификаторов, так что ни один человек не может быть выделен среди менее чем k людей. Это формализовало интуицию, что комбинации, казалось бы, безобидных атрибутов могут идентифицировать людей.
l-Разнообразие
Расширение k-анонимности, требующее, чтобы каждая группа неотличимых записей содержала по крайней мере l хорошо представленных значений для любого конфиденциального атрибута, что устраняет слабость, заключающуюся в том, что k-анонимные данные все еще могут раскрывать конфиденциальные значения, когда группа однородна.
Дифференциальная конфиденциальность
Формальная гарантия того, что результат анализа почти не изменится, независимо от того, включены ли данные какого-либо отдельного лица, достигается за счет калиброванного случайного шума, так что мало что можно узнать о каком-либо одном человеке из результата.

Mechanisms

Деидентификация снижает идентифицируемость путем удаления прямых идентификаторов и путем обобщения или подавления квазиидентификаторов (таких как возраст, почтовый индекс и даты), которые в совокупности могут выделить отдельных лиц. Формальные модели дают этому процессу проверяемые гарантии: k-анонимность требует, чтобы каждая запись смешивалась по крайней мере с k-1 другими по квазиидентификаторам (Sweeney, 2002), l-разнообразие усиливает это требование, обеспечивая разнообразие конфиденциальных значений в каждой группе (Machanavajjhala et al., 2007), а дифференциальная конфиденциальность ограничивает влияние любого отдельного лица на анализ путем добавления калиброванного шума (Dwork et al., 2006). Поскольку удаление деталей снижает аналитическую полезность, каждый метод балансирует между конфиденциальностью и полезностью. Дополнительное направление сохраняет данные децентрализованными: федеративное обучение обучает модели в различных учреждениях без перемещения базовых записей, ограничивая раскрытие идентифицируемых данных (Rieke et al., 2020). Ни один из этих подходов не лишен риска, и повторная идентификация иногда может быть успешной даже на неполных или редко выборных наборах данных (Rocher et al., 2019).

Clinical relevance

Деидентификация и анализ с сохранением конфиденциальности — это то, что делает возможным крупномасштабное вторичное использование клинических данных для исследований, измерения качества и общественного здравоохранения без широкого раскрытия идентифицируемых записей. Осведомленность об остаточном риске повторной идентификации определяет, как такие данные управляются и распространяются (Rocher et al., 2019). Эта статья описывает методы для справки и обучения и не сертифицирует какой-либо конкретный набор данных как адекватно деидентифицированный или соответствующий законодательству.

Evidence & guidelines

Упомянутые здесь формальные модели конфиденциальности являются основополагающими методологическими вкладами (Sweeney, 2002; Machanavajjhala et al., 2007; Dwork et al., 2006). Эмпирические исследования показывают, что повторная идентификация остается возможной при некоторых условиях (Rocher et al., 2019), что стимулирует постоянное развитие распределенных подходов, таких как федеративное обучение (Rieke et al., 2020). Регуляторные стандарты для деидентификации (например, методы HIPAA Safe Harbor и Expert Determination) определены отдельно в официальных правилах и должны быть непосредственно изучены для целей соблюдения.

History

Ограничение статистического раскрытия имеет долгую историю в официальной статистике, но деидентификация медицинских данных стала актуальной по мере распространения подробных электронных записей и общедоступных наборов данных. k-анонимность Суини (2002) дала этой области влиятельную формальную модель и наглядно проиллюстрировала, как квазиидентификаторы могут повторно идентифицировать предположительно анонимные записи. Последующие уточнения, такие как l-разнообразие (2007), устранили ее ограничения, а дифференциальная конфиденциальность (2006) переосмыслила конфиденциальность как свойство анализа, а не выпущенного набора данных. Более поздние работы как подчеркнули сохраняющийся риск повторной идентификации (2019), так и разработали децентрализованные методы анализа (2020).

Debates

Можно ли считать деидентифицированные медицинские данные полностью анонимными?
Некоторые утверждают, что тщательная деидентификация делает повторную идентификацию незначительной на практике, в то время как другие показывают, что повторная идентификация может быть успешной даже на неполных наборах данных, подразумевая, что анонимность — это вопрос степени и контекста, а не фиксированной гарантии.

Related topics

Seminal works

  • sweeney-2002
  • dwork-2006
  • machanavajjhala-2007

Frequently asked questions

В чем разница между k-анонимностью и дифференциальной конфиденциальностью?
k-анонимность — это свойство выпущенного набора данных, гарантирующее, что каждая запись неотличима по крайней мере от k-1 других по квазиидентификаторам. Дифференциальная конфиденциальность — это свойство механизма анализа или выпуска, ограничивающее, насколько присутствие любого отдельного лица может изменить результат путем добавления калиброванного шума. Они защищают конфиденциальность различными способами и могут использоваться для разных целей.
Полностью ли устраняет деидентификация риск повторной идентификации?
Нет. Деидентификация снижает, но не всегда устраняет риск; исследования показали, что отдельные лица иногда могут быть повторно идентифицированы из деидентифицированных или неполных наборов данных, поэтому остаточный риск должен быть оценен и управляем, а не предполагаться равным нулю.

Methods for this concept

Related concepts