Ẩn danh hóa và Phân tích dữ liệu bảo vệ quyền riêng tư
Ẩn danh hóa là quá trình loại bỏ hoặc biến đổi thông tin có thể nhận dạng cá nhân trong một tập dữ liệu y tế để dữ liệu có thể được sử dụng và chia sẻ với rủi ro về quyền riêng tư được giảm thiểu. Phân tích dữ liệu bảo vệ quyền riêng tư là một nhóm phương pháp rộng hơn cho phép tính toán hữu ích trên dữ liệu nhạy cảm trong khi giới hạn mức độ thông tin có thể được tìm hiểu về bất kỳ cá nhân nào. Cùng với nhau, chúng cho phép dữ liệu y tế hỗ trợ nghiên cứu và hoạt động trong khi hạn chế việc tái nhận dạng.
Definition
Ẩn danh hóa là việc loại bỏ hoặc thay đổi thông tin nhận dạng khỏi dữ liệu để các cá nhân không dễ dàng bị nhận dạng; phân tích dữ liệu bảo vệ quyền riêng tư bao gồm các kỹ thuật (bao gồm các mô hình ẩn danh hóa chính thức và các phương pháp tính toán dựa trên nhiễu hoặc phân tán) cho phép phân tích dữ liệu nhạy cảm trong khi giới hạn thông tin được tiết lộ về bất kỳ cá nhân nào.
Scope
Mục này bao gồm lý do cho việc ẩn danh hóa, các mô hình quyền riêng tư chính thức chính (như k-ẩn danh và các cải tiến của nó, và quyền riêng tư vi sai), rủi ro tái nhận dạng dai dẳng, và các phương pháp tiếp cận mới nổi tính toán trên dữ liệu mà không tập trung hóa (như học máy liên bang). Mục này coi đây là các khái niệm phương pháp luận để tham khảo và giáo dục và không phải là một giao thức để ẩn danh hóa bất kỳ tập dữ liệu cụ thể nào hoặc một sự đảm bảo về tính đầy đủ pháp lý.
Core questions
- Điều gì làm cho một bản ghi có thể nhận dạng được, và làm thế nào để giảm khả năng nhận dạng?
- Các đảm bảo chính thức nào mà các mô hình như k-ẩn danh và quyền riêng tư vi sai cung cấp?
- Rủi ro dữ liệu đã được ẩn danh có thể bị tái nhận dạng là thực tế đến mức nào?
- Làm thế nào để phân tích dữ liệu mà không cần tập trung hóa hoặc chia sẻ trực tiếp?
- Làm thế nào để quản lý sự đánh đổi giữa bảo vệ quyền riêng tư và tiện ích dữ liệu?
Key concepts
- Định danh trực tiếp so với định danh bán trực tiếp
- Rủi ro tái nhận dạng
- Sự đánh đổi giữa tiện ích và quyền riêng tư
- Khái quát hóa và loại bỏ
- Thêm nhiễu và phản hồi ngẫu nhiên
- Dữ liệu tổng hợp
- Phân tích liên bang và phân tán
- Tính toán an toàn
Key theories
- k-Ẩn danh
- Một tập dữ liệu thỏa mãn k-ẩn danh nếu mỗi bản ghi không thể phân biệt được với ít nhất k-1 bản ghi khác đối với một tập hợp các định danh bán trực tiếp, để không cá nhân nào có thể bị xác định trong số ít hơn k người. Nó đã chính thức hóa trực giác rằng sự kết hợp của các thuộc tính tưởng chừng vô hại có thể nhận dạng con người.
- l-Đa dạng
- Một phần mở rộng của k-ẩn danh yêu cầu mỗi nhóm các bản ghi không thể phân biệt được phải chứa ít nhất l giá trị được đại diện tốt cho bất kỳ thuộc tính nhạy cảm nào, giải quyết điểm yếu là dữ liệu k-ẩn danh vẫn có thể làm rò rỉ các giá trị nhạy cảm khi một nhóm đồng nhất.
- Quyền riêng tư vi sai
- Một đảm bảo chính thức rằng kết quả của một phân tích gần như không thay đổi dù có hay không có dữ liệu của bất kỳ cá nhân nào, đạt được bằng cách thêm nhiễu ngẫu nhiên được hiệu chỉnh, để ít thông tin có thể được suy ra về bất kỳ người nào từ kết quả.
Mechanisms
Ẩn danh hóa giảm khả năng nhận dạng bằng cách loại bỏ các định danh trực tiếp và bằng cách khái quát hóa hoặc loại bỏ các định danh bán trực tiếp (như tuổi, mã ZIP và ngày tháng) mà, khi kết hợp, có thể xác định các cá nhân. Các mô hình chính thức cung cấp cho quá trình này các đảm bảo có thể kiểm tra được: k-ẩn danh yêu cầu mỗi bản ghi phải hòa lẫn với ít nhất k-1 bản ghi khác trên các định danh bán trực tiếp (Sweeney, 2002), l-đa dạng củng cố nó bằng cách đảm bảo sự đa dạng trong các giá trị nhạy cảm trong mỗi nhóm (Machanavajjhala et al., 2007), và quyền riêng tư vi sai giới hạn ảnh hưởng của bất kỳ cá nhân nào đối với một phân tích bằng cách thêm nhiễu được hiệu chỉnh (Dwork et al., 2006). Bởi vì việc loại bỏ chi tiết làm giảm tính hữu ích của phân tích, mỗi phương pháp đều phải cân bằng giữa quyền riêng tư và tiện ích. Một hướng bổ sung là giữ dữ liệu phi tập trung: học máy liên bang đào tạo các mô hình trên các tổ chức mà không di chuyển các bản ghi cơ bản, hạn chế việc tiếp xúc dữ liệu có thể nhận dạng (Rieke et al., 2020). Không có phương pháp nào trong số này là không có rủi ro, và việc tái nhận dạng đôi khi có thể thành công ngay cả trên các tập dữ liệu không đầy đủ hoặc được lấy mẫu thưa thớt (Rocher et al., 2019).
Clinical relevance
Ẩn danh hóa và phân tích bảo vệ quyền riêng tư là những gì làm cho việc sử dụng thứ cấp dữ liệu lâm sàng quy mô lớn cho nghiên cứu, đo lường chất lượng và y tế công cộng trở nên khả thi mà không làm lộ rộng rãi các bản ghi có thể nhận dạng. Nhận thức về rủi ro tái nhận dạng còn lại thông báo cách dữ liệu đó được quản lý và chia sẻ (Rocher et al., 2019). Mục này mô tả các phương pháp để tham khảo và giáo dục và không chứng nhận bất kỳ tập dữ liệu cụ thể nào là được ẩn danh hóa đầy đủ hoặc tuân thủ pháp luật.
Evidence & guidelines
Các mô hình quyền riêng tư chính thức được trích dẫn ở đây là những đóng góp phương pháp luận nền tảng (Sweeney, 2002; Machanavajjhala et al., 2007; Dwork et al., 2006). Công trình thực nghiệm chứng minh rằng việc tái nhận dạng vẫn khả thi trong một số điều kiện (Rocher et al., 2019), thúc đẩy sự phát triển liên tục của các phương pháp tiếp cận phân tán như học máy liên bang (Rieke et al., 2020). Các tiêu chuẩn quy định về ẩn danh hóa (ví dụ, các phương pháp HIPAA Safe Harbor và Expert Determination) được định nghĩa riêng trong các quy tắc chính thức và nên được tham khảo trực tiếp cho mục đích tuân thủ.
History
Giới hạn tiết lộ thống kê có một lịch sử lâu dài trong thống kê chính thức, nhưng việc ẩn danh hóa dữ liệu y tế trở nên cấp bách khi các hồ sơ điện tử chi tiết và các tập dữ liệu công cộng phổ biến. K-ẩn danh của Sweeney (2002) đã cung cấp cho lĩnh vực này một mô hình chính thức có ảnh hưởng và minh họa nổi tiếng cách các định danh bán trực tiếp có thể tái nhận dạng các bản ghi được cho là ẩn danh. Các cải tiến tiếp theo như l-đa dạng (2007) đã giải quyết các giới hạn của nó, và quyền riêng tư vi sai (2006) đã định hình lại quyền riêng tư như một thuộc tính của phân tích hơn là của tập dữ liệu được phát hành. Công trình gần đây hơn đã vừa làm nổi bật rủi ro tái nhận dạng dai dẳng (2019) vừa phát triển các phương pháp phân tích phi tập trung (2020).
Debates
- Dữ liệu y tế đã được ẩn danh có thể được coi là ẩn danh an toàn không?
- Một số người cho rằng việc ẩn danh hóa cẩn thận làm cho việc tái nhận dạng trở nên không đáng kể trong thực tế, trong khi những người khác chỉ ra rằng việc tái nhận dạng có thể thành công ngay cả trên các tập dữ liệu không đầy đủ, ngụ ý rằng tính ẩn danh là vấn đề về mức độ và ngữ cảnh hơn là một đảm bảo cố định.
Related topics
Seminal works
- sweeney-2002
- dwork-2006
- machanavajjhala-2007
Frequently asked questions
- Sự khác biệt giữa k-ẩn danh và quyền riêng tư vi sai là gì?
- k-ẩn danh là một thuộc tính của một tập dữ liệu được phát hành, đảm bảo mỗi bản ghi không thể phân biệt được với ít nhất k-1 bản ghi khác trên các định danh bán trực tiếp. Quyền riêng tư vi sai là một thuộc tính của một phân tích hoặc cơ chế phát hành, giới hạn mức độ hiện diện của bất kỳ cá nhân nào có thể thay đổi kết quả bằng cách thêm nhiễu được hiệu chỉnh. Chúng bảo vệ quyền riêng tư theo những cách khác nhau và có thể được sử dụng cho các mục đích khác nhau.
- Ẩn danh hóa có loại bỏ hoàn toàn rủi ro tái nhận dạng không?
- Không. Ẩn danh hóa làm giảm nhưng không phải lúc nào cũng loại bỏ rủi ro; nghiên cứu đã chỉ ra rằng các cá nhân đôi khi có thể bị tái nhận dạng từ các tập dữ liệu đã được ẩn danh hoặc không đầy đủ, vì vậy rủi ro còn lại phải được đánh giá và quản lý thay vì giả định là bằng không.