Sự khác biệt giữa k-ẩn danh và quyền riêng tư vi sai là gì?

k-ẩn danh là một thuộc tính của một tập dữ liệu được phát hành, đảm bảo mỗi bản ghi không thể phân biệt được với ít nhất k-1 bản ghi khác trên các định danh bán trực tiếp. Quyền riêng tư vi sai là một thuộc tính của một phân tích hoặc cơ chế phát hành, giới hạn mức độ hiện diện của bất kỳ cá nhân nào có thể thay đổi kết quả bằng cách thêm nhiễu được hiệu chỉnh. Chúng bảo vệ quyền riêng tư theo những cách khác nhau và có thể được sử dụng cho các mục đích khác nhau.

Ẩn danh hóa có loại bỏ hoàn toàn rủi ro tái nhận dạng không?

Không. Ẩn danh hóa làm giảm nhưng không phải lúc nào cũng loại bỏ rủi ro; nghiên cứu đã chỉ ra rằng các cá nhân đôi khi có thể bị tái nhận dạng từ các tập dữ liệu đã được ẩn danh hoặc không đầy đủ, vì vậy rủi ro còn lại phải được đánh giá và quản lý thay vì giả định là bằng không.

Ẩn danh hóa và Phân tích dữ liệu bảo vệ quyền riêng tư

Ẩn danh hóa là quá trình loại bỏ hoặc biến đổi thông tin có thể nhận dạng cá nhân trong một tập dữ liệu y tế để dữ liệu có thể được sử dụng và chia sẻ với rủi ro về quyền riêng tư được giảm thiểu. Phân tích dữ liệu bảo vệ quyền riêng tư là một nhóm phương pháp rộng hơn cho phép tính toán hữu ích trên dữ liệu nhạy cảm trong khi giới hạn mức độ thông tin có thể được tìm hiểu về bất kỳ cá nhân nào. Cùng với nhau, chúng cho phép dữ liệu y tế hỗ trợ nghiên cứu và hoạt động trong khi hạn chế việc tái nhận dạng.

Tìm chủ đề với PaperMindSắp ra mắtFind papers & topics

Tools & resources

Tải xuống bản trình chiếu

Learn & explore

VideoSắp ra mắt

Definition

Ẩn danh hóa là việc loại bỏ hoặc thay đổi thông tin nhận dạng khỏi dữ liệu để các cá nhân không dễ dàng bị nhận dạng; phân tích dữ liệu bảo vệ quyền riêng tư bao gồm các kỹ thuật (bao gồm các mô hình ẩn danh hóa chính thức và các phương pháp tính toán dựa trên nhiễu hoặc phân tán) cho phép phân tích dữ liệu nhạy cảm trong khi giới hạn thông tin được tiết lộ về bất kỳ cá nhân nào.

Scope

Mục này bao gồm lý do cho việc ẩn danh hóa, các mô hình quyền riêng tư chính thức chính (như k-ẩn danh và các cải tiến của nó, và quyền riêng tư vi sai), rủi ro tái nhận dạng dai dẳng, và các phương pháp tiếp cận mới nổi tính toán trên dữ liệu mà không tập trung hóa (như học máy liên bang). Mục này coi đây là các khái niệm phương pháp luận để tham khảo và giáo dục và không phải là một giao thức để ẩn danh hóa bất kỳ tập dữ liệu cụ thể nào hoặc một sự đảm bảo về tính đầy đủ pháp lý.

Core questions

Điều gì làm cho một bản ghi có thể nhận dạng được, và làm thế nào để giảm khả năng nhận dạng?
Các đảm bảo chính thức nào mà các mô hình như k-ẩn danh và quyền riêng tư vi sai cung cấp?
Rủi ro dữ liệu đã được ẩn danh có thể bị tái nhận dạng là thực tế đến mức nào?
Làm thế nào để phân tích dữ liệu mà không cần tập trung hóa hoặc chia sẻ trực tiếp?
Làm thế nào để quản lý sự đánh đổi giữa bảo vệ quyền riêng tư và tiện ích dữ liệu?

Key concepts

Định danh trực tiếp so với định danh bán trực tiếp
Rủi ro tái nhận dạng
Sự đánh đổi giữa tiện ích và quyền riêng tư
Khái quát hóa và loại bỏ
Thêm nhiễu và phản hồi ngẫu nhiên
Dữ liệu tổng hợp
Phân tích liên bang và phân tán
Tính toán an toàn

Key theories

k-Ẩn danh: Một tập dữ liệu thỏa mãn k-ẩn danh nếu mỗi bản ghi không thể phân biệt được với ít nhất k-1 bản ghi khác đối với một tập hợp các định danh bán trực tiếp, để không cá nhân nào có thể bị xác định trong số ít hơn k người. Nó đã chính thức hóa trực giác rằng sự kết hợp của các thuộc tính tưởng chừng vô hại có thể nhận dạng con người.
l-Đa dạng: Một phần mở rộng của k-ẩn danh yêu cầu mỗi nhóm các bản ghi không thể phân biệt được phải chứa ít nhất l giá trị được đại diện tốt cho bất kỳ thuộc tính nhạy cảm nào, giải quyết điểm yếu là dữ liệu k-ẩn danh vẫn có thể làm rò rỉ các giá trị nhạy cảm khi một nhóm đồng nhất.
Quyền riêng tư vi sai: Một đảm bảo chính thức rằng kết quả của một phân tích gần như không thay đổi dù có hay không có dữ liệu của bất kỳ cá nhân nào, đạt được bằng cách thêm nhiễu ngẫu nhiên được hiệu chỉnh, để ít thông tin có thể được suy ra về bất kỳ người nào từ kết quả.

Mechanisms

Ẩn danh hóa giảm khả năng nhận dạng bằng cách loại bỏ các định danh trực tiếp và bằng cách khái quát hóa hoặc loại bỏ các định danh bán trực tiếp (như tuổi, mã ZIP và ngày tháng) mà, khi kết hợp, có thể xác định các cá nhân. Các mô hình chính thức cung cấp cho quá trình này các đảm bảo có thể kiểm tra được: k-ẩn danh yêu cầu mỗi bản ghi phải hòa lẫn với ít nhất k-1 bản ghi khác trên các định danh bán trực tiếp (Sweeney, 2002), l-đa dạng củng cố nó bằng cách đảm bảo sự đa dạng trong các giá trị nhạy cảm trong mỗi nhóm (Machanavajjhala et al., 2007), và quyền riêng tư vi sai giới hạn ảnh hưởng của bất kỳ cá nhân nào đối với một phân tích bằng cách thêm nhiễu được hiệu chỉnh (Dwork et al., 2006). Bởi vì việc loại bỏ chi tiết làm giảm tính hữu ích của phân tích, mỗi phương pháp đều phải cân bằng giữa quyền riêng tư và tiện ích. Một hướng bổ sung là giữ dữ liệu phi tập trung: học máy liên bang đào tạo các mô hình trên các tổ chức mà không di chuyển các bản ghi cơ bản, hạn chế việc tiếp xúc dữ liệu có thể nhận dạng (Rieke et al., 2020). Không có phương pháp nào trong số này là không có rủi ro, và việc tái nhận dạng đôi khi có thể thành công ngay cả trên các tập dữ liệu không đầy đủ hoặc được lấy mẫu thưa thớt (Rocher et al., 2019).

Clinical relevance

Ẩn danh hóa và phân tích bảo vệ quyền riêng tư là những gì làm cho việc sử dụng thứ cấp dữ liệu lâm sàng quy mô lớn cho nghiên cứu, đo lường chất lượng và y tế công cộng trở nên khả thi mà không làm lộ rộng rãi các bản ghi có thể nhận dạng. Nhận thức về rủi ro tái nhận dạng còn lại thông báo cách dữ liệu đó được quản lý và chia sẻ (Rocher et al., 2019). Mục này mô tả các phương pháp để tham khảo và giáo dục và không chứng nhận bất kỳ tập dữ liệu cụ thể nào là được ẩn danh hóa đầy đủ hoặc tuân thủ pháp luật.

Evidence & guidelines

Các mô hình quyền riêng tư chính thức được trích dẫn ở đây là những đóng góp phương pháp luận nền tảng (Sweeney, 2002; Machanavajjhala et al., 2007; Dwork et al., 2006). Công trình thực nghiệm chứng minh rằng việc tái nhận dạng vẫn khả thi trong một số điều kiện (Rocher et al., 2019), thúc đẩy sự phát triển liên tục của các phương pháp tiếp cận phân tán như học máy liên bang (Rieke et al., 2020). Các tiêu chuẩn quy định về ẩn danh hóa (ví dụ, các phương pháp HIPAA Safe Harbor và Expert Determination) được định nghĩa riêng trong các quy tắc chính thức và nên được tham khảo trực tiếp cho mục đích tuân thủ.

History

Giới hạn tiết lộ thống kê có một lịch sử lâu dài trong thống kê chính thức, nhưng việc ẩn danh hóa dữ liệu y tế trở nên cấp bách khi các hồ sơ điện tử chi tiết và các tập dữ liệu công cộng phổ biến. K-ẩn danh của Sweeney (2002) đã cung cấp cho lĩnh vực này một mô hình chính thức có ảnh hưởng và minh họa nổi tiếng cách các định danh bán trực tiếp có thể tái nhận dạng các bản ghi được cho là ẩn danh. Các cải tiến tiếp theo như l-đa dạng (2007) đã giải quyết các giới hạn của nó, và quyền riêng tư vi sai (2006) đã định hình lại quyền riêng tư như một thuộc tính của phân tích hơn là của tập dữ liệu được phát hành. Công trình gần đây hơn đã vừa làm nổi bật rủi ro tái nhận dạng dai dẳng (2019) vừa phát triển các phương pháp phân tích phi tập trung (2020).

Debates

Dữ liệu y tế đã được ẩn danh có thể được coi là ẩn danh an toàn không?: Một số người cho rằng việc ẩn danh hóa cẩn thận làm cho việc tái nhận dạng trở nên không đáng kể trong thực tế, trong khi những người khác chỉ ra rằng việc tái nhận dạng có thể thành công ngay cả trên các tập dữ liệu không đầy đủ, ngụ ý rằng tính ẩn danh là vấn đề về mức độ và ngữ cảnh hơn là một đảm bảo cố định.

Seminal works

sweeney-2002
dwork-2006
machanavajjhala-2007

Frequently asked questions

Sự khác biệt giữa k-ẩn danh và quyền riêng tư vi sai là gì?: k-ẩn danh là một thuộc tính của một tập dữ liệu được phát hành, đảm bảo mỗi bản ghi không thể phân biệt được với ít nhất k-1 bản ghi khác trên các định danh bán trực tiếp. Quyền riêng tư vi sai là một thuộc tính của một phân tích hoặc cơ chế phát hành, giới hạn mức độ hiện diện của bất kỳ cá nhân nào có thể thay đổi kết quả bằng cách thêm nhiễu được hiệu chỉnh. Chúng bảo vệ quyền riêng tư theo những cách khác nhau và có thể được sử dụng cho các mục đích khác nhau.
Ẩn danh hóa có loại bỏ hoàn toàn rủi ro tái nhận dạng không?: Không. Ẩn danh hóa làm giảm nhưng không phải lúc nào cũng loại bỏ rủi ro; nghiên cứu đã chỉ ra rằng các cá nhân đôi khi có thể bị tái nhận dạng từ các tập dữ liệu đã được ẩn danh hoặc không đầy đủ, vì vậy rủi ro còn lại phải được đánh giá và quản lý thay vì giả định là bằng không.