ความแตกต่างระหว่าง k-anonymity และ differential privacy คืออะไร?

k-anonymity เป็นคุณสมบัติของชุดข้อมูลที่เผยแพร่ ซึ่งรับรองว่าแต่ละระเบียนไม่สามารถแยกแยะได้จากระเบียนอื่นอย่างน้อย k-1 รายการบนตัวระบุเสมือน Differential privacy เป็นคุณสมบัติของการวิเคราะห์หรือกลไกการเผยแพร่ ซึ่งจำกัดว่าการมีอยู่ของแต่ละบุคคลสามารถเปลี่ยนแปลงผลลัพธ์ได้มากน้อยเพียงใดโดยการเพิ่มสัญญาณรบกวนที่ปรับเทียบแล้ว ทั้งสองปกป้องความเป็นส่วนตัวในวิธีที่แตกต่างกันและสามารถใช้เพื่อวัตถุประสงค์ที่แตกต่างกันได้

การไม่เปิดเผยตัวตนช่วยขจัดความเสี่ยงของการระบุตัวตนซ้ำได้อย่างสมบูรณ์หรือไม่?

ไม่ การไม่เปิดเผยตัวตนช่วยลดแต่ไม่เสมอไปที่จะขจัดความเสี่ยง งานวิจัยแสดงให้เห็นว่าบางครั้งบุคคลสามารถถูกระบุตัวตนซ้ำได้จากชุดข้อมูลที่ถูกไม่เปิดเผยตัวตนหรือไม่สมบูรณ์ ดังนั้นความเสี่ยงที่เหลืออยู่จึงต้องได้รับการประเมินและจัดการ แทนที่จะถือว่าไม่มีเลย

การไม่เปิดเผยตัวตนและการวิเคราะห์ข้อมูลที่รักษาความเป็นส่วนตัว

การไม่เปิดเผยตัวตน (De-identification) คือกระบวนการลบหรือแปลงข้อมูลที่สามารถระบุตัวบุคคลในชุดข้อมูลสุขภาพ เพื่อให้สามารถใช้และแบ่งปันข้อมูลได้โดยลดความเสี่ยงด้านความเป็นส่วนตัว การวิเคราะห์ข้อมูลที่รักษาความเป็นส่วนตัว (Privacy-preserving data analysis) เป็นกลุ่มวิธีการที่กว้างขึ้นซึ่งช่วยให้สามารถคำนวณข้อมูลที่ละเอียดอ่อนได้อย่างมีประโยชน์ ในขณะที่จำกัดปริมาณข้อมูลที่สามารถเรียนรู้เกี่ยวกับแต่ละบุคคลได้ ทั้งสองวิธีนี้ช่วยให้ข้อมูลสุขภาพสนับสนุนการวิจัยและการดำเนินงานในขณะที่จำกัดการระบุตัวตนซ้ำ

ค้นหาหัวข้อด้วย PaperMindเร็ว ๆ นี้Find papers & topics

Tools & resources

ดาวน์โหลดสไลด์

Learn & explore

วิดีโอเร็ว ๆ นี้

Definition

การไม่เปิดเผยตัวตน (De-identification) คือการลบหรือเปลี่ยนแปลงข้อมูลที่ระบุตัวตนจากข้อมูล เพื่อไม่ให้บุคคลสามารถระบุตัวตนได้โดยง่าย การวิเคราะห์ข้อมูลที่รักษาความเป็นส่วนตัว (Privacy-preserving data analysis) ประกอบด้วยเทคนิคต่างๆ (รวมถึงรูปแบบการไม่เปิดเผยตัวตนอย่างเป็นทางการ และวิธีการคำนวณแบบใช้สัญญาณรบกวนหรือแบบกระจาย) ที่ช่วยให้สามารถวิเคราะห์ข้อมูลที่ละเอียดอ่อนได้ ในขณะที่จำกัดข้อมูลที่เปิดเผยเกี่ยวกับแต่ละบุคคล

Scope

บทความนี้ครอบคลุมเหตุผลของการไม่เปิดเผยตัวตน รูปแบบความเป็นส่วนตัวอย่างเป็นทางการหลัก (เช่น k-anonymity และการปรับปรุง รวมถึง differential privacy) ความเสี่ยงที่คงอยู่ของการระบุตัวตนซ้ำ และแนวทางใหม่ที่คำนวณข้อมูลโดยไม่ต้องรวมศูนย์ (เช่น federated learning) โดยถือว่าสิ่งเหล่านี้เป็นแนวคิดเชิงระเบียบวิธีสำหรับการอ้างอิงและการศึกษา และไม่ใช่ระเบียบวิธีสำหรับการไม่เปิดเผยตัวตนชุดข้อมูลเฉพาะใดๆ หรือการรับประกันความเพียงพอทางกฎหมาย

Core questions

อะไรที่ทำให้บันทึกสามารถระบุตัวตนได้ และจะลดความสามารถในการระบุตัวตนได้อย่างไร?
รูปแบบต่างๆ เช่น k-anonymity และ differential privacy ให้การรับประกันอย่างเป็นทางการอย่างไร?
ความเสี่ยงที่ข้อมูลที่ถูกไม่เปิดเผยตัวตนสามารถถูกระบุตัวตนซ้ำได้นั้นเป็นจริงแค่ไหน?
จะวิเคราะห์ข้อมูลได้อย่างไรโดยไม่ต้องรวมศูนย์หรือแบ่งปันโดยตรง?
จะจัดการกับการแลกเปลี่ยนระหว่างการปกป้องความเป็นส่วนตัวและประโยชน์ใช้สอยของข้อมูลได้อย่างไร?

Key concepts

ตัวระบุโดยตรงเทียบกับตัวระบุเสมือน
ความเสี่ยงของการระบุตัวตนซ้ำ
การแลกเปลี่ยนระหว่างประโยชน์ใช้สอยและความเป็นส่วนตัว
การทำให้เป็นข้อมูลทั่วไปและการระงับ
การเพิ่มสัญญาณรบกวนและการตอบสนองแบบสุ่ม
ข้อมูลสังเคราะห์
การวิเคราะห์แบบรวมศูนย์และแบบกระจาย
การคำนวณที่ปลอดภัย

Key theories

k-Anonymity: ชุดข้อมูลเป็นไปตาม k-anonymity หากแต่ละระเบียนไม่สามารถแยกแยะได้จากระเบียนอื่นอย่างน้อย k-1 รายการในส่วนที่เกี่ยวกับชุดของตัวระบุเสมือน เพื่อไม่ให้บุคคลใดถูกแยกออกได้ในกลุ่มคนน้อยกว่า k คน ซึ่งเป็นแนวคิดที่เป็นทางการว่าการรวมกันของแอตทริบิวต์ที่ดูเหมือนไม่เป็นอันตรายสามารถระบุตัวบุคคลได้
l-Diversity: ส่วนขยายของ k-anonymity ที่กำหนดให้แต่ละกลุ่มของระเบียนที่ไม่สามารถแยกแยะได้ต้องมีค่าที่แสดงถึงอย่างน้อย l ค่าสำหรับแอตทริบิวต์ที่ละเอียดอ่อนใดๆ ซึ่งแก้ไขจุดอ่อนที่ข้อมูล k-anonymous ยังคงสามารถรั่วไหลค่าที่ละเอียดอ่อนได้เมื่อกลุ่มเป็นเนื้อเดียวกัน
Differential privacy: การรับประกันอย่างเป็นทางการว่าผลลัพธ์ของการวิเคราะห์แทบจะไม่เปลี่ยนแปลงไม่ว่าข้อมูลของแต่ละบุคคลจะถูกรวมอยู่หรือไม่ ซึ่งทำได้โดยการเพิ่มสัญญาณรบกวนแบบสุ่มที่ปรับเทียบแล้ว เพื่อให้สามารถอนุมานได้น้อยมากเกี่ยวกับบุคคลใดบุคคลหนึ่งจากผลลัพธ์

Mechanisms

การไม่เปิดเผยตัวตนช่วยลดความสามารถในการระบุตัวตนโดยการลบตัวระบุโดยตรง และโดยการทำให้เป็นข้อมูลทั่วไปหรือระงับตัวระบุเสมือน (เช่น อายุ รหัสไปรษณีย์ และวันที่) ซึ่งเมื่อรวมกันแล้วสามารถระบุตัวบุคคลได้ รูปแบบที่เป็นทางการให้การรับประกันที่สามารถทดสอบได้: k-anonymity กำหนดให้แต่ละระเบียนต้องรวมเข้ากับระเบียนอื่นอย่างน้อย k-1 รายการบนตัวระบุเสมือน (Sweeney, 2002), l-diversity เสริมความแข็งแกร่งโดยการรับรองความหลากหลายในค่าที่ละเอียดอ่อนภายในแต่ละกลุ่ม (Machanavajjhala et al., 2007) และ differential privacy จำกัดอิทธิพลของแต่ละบุคคลต่อการวิเคราะห์โดยการเพิ่มสัญญาณรบกวนที่ปรับเทียบแล้ว (Dwork et al., 2006) เนื่องจากการลบรายละเอียดจะลดประโยชน์ในการวิเคราะห์ ทุกวิธีจึงต้องจัดการกับการแลกเปลี่ยนระหว่างความเป็นส่วนตัวและประโยชน์ใช้สอย แนวทางเสริมคือการเก็บข้อมูลแบบกระจายศูนย์: federated learning ฝึกอบรมแบบจำลองในสถาบันต่างๆ โดยไม่ต้องย้ายระเบียนพื้นฐาน ซึ่งจำกัดการเปิดเผยข้อมูลที่สามารถระบุตัวตนได้ (Rieke et al., 2020) ไม่มีแนวทางใดที่ปราศจากความเสี่ยง และการระบุตัวตนซ้ำบางครั้งอาจประสบความสำเร็จแม้ในชุดข้อมูลที่ไม่สมบูรณ์หรือมีการสุ่มตัวอย่างน้อย (Rocher et al., 2019)

Clinical relevance

การไม่เปิดเผยตัวตนและการวิเคราะห์ที่รักษาความเป็นส่วนตัวเป็นสิ่งที่ทำให้การใช้ข้อมูลทางคลินิกขนาดใหญ่ซ้ำเพื่อการวิจัย การวัดคุณภาพ และสาธารณสุขเป็นไปได้ โดยไม่ต้องเปิดเผยบันทึกที่สามารถระบุตัวตนได้ในวงกว้าง การตระหนักถึงความเสี่ยงที่เหลืออยู่ของการระบุตัวตนซ้ำจะแจ้งให้ทราบว่าข้อมูลดังกล่าวถูกกำกับดูแลและแบ่งปันอย่างไร (Rocher et al., 2019) บทความนี้อธิบายวิธีการสำหรับการอ้างอิงและการศึกษา และไม่รับรองว่าชุดข้อมูลใดชุดข้อมูลหนึ่งได้รับการไม่เปิดเผยตัวตนอย่างเพียงพอหรือเป็นไปตามกฎหมาย

Evidence & guidelines

รูปแบบความเป็นส่วนตัวอย่างเป็นทางการที่อ้างถึงในที่นี้เป็นผลงานทางระเบียบวิธีที่เป็นรากฐาน (Sweeney, 2002; Machanavajjhala et al., 2007; Dwork et al., 2006) งานเชิงประจักษ์แสดงให้เห็นว่าการระบุตัวตนซ้ำยังคงเป็นไปได้ภายใต้เงื่อนไขบางประการ (Rocher et al., 2019) ซึ่งกระตุ้นให้เกิดการพัฒนาอย่างต่อเนื่องของแนวทางแบบกระจายศูนย์ เช่น federated learning (Rieke et al., 2020) มาตรฐานการกำกับดูแลสำหรับการไม่เปิดเผยตัวตน (ตัวอย่างเช่น วิธี HIPAA Safe Harbor และ Expert Determination) ถูกกำหนดแยกต่างหากในกฎระเบียบอย่างเป็นทางการ และควรปรึกษาโดยตรงเพื่อวัตถุประสงค์ในการปฏิบัติตาม

History

การจำกัดการเปิดเผยข้อมูลทางสถิติมีประวัติยาวนานในสถิติทางการ แต่การไม่เปิดเผยตัวตนข้อมูลสุขภาพมีความเร่งด่วนมากขึ้นเมื่อบันทึกอิเล็กทรอนิกส์ที่มีรายละเอียดและชุดข้อมูลสาธารณะแพร่หลาย k-anonymity ของ Sweeney (2002) ได้ให้รูปแบบที่เป็นทางการที่มีอิทธิพลต่อสาขานี้ และแสดงให้เห็นอย่างมีชื่อเสียงว่าตัวระบุเสมือนสามารถระบุตัวตนซ้ำบันทึกที่คาดว่าไม่เปิดเผยตัวตนได้อย่างไร การปรับปรุงในภายหลัง เช่น l-diversity (2007) ได้แก้ไขข้อจำกัดของมัน และ differential privacy (2006) ได้ปรับเปลี่ยนความเป็นส่วนตัวให้เป็นคุณสมบัติของการวิเคราะห์มากกว่าชุดข้อมูลที่เผยแพร่ งานล่าสุดได้เน้นย้ำถึงความเสี่ยงของการระบุตัวตนซ้ำที่คงอยู่ (2019) และพัฒนาวิธีการวิเคราะห์แบบกระจายศูนย์ (2020)

Debates

ข้อมูลสุขภาพที่ถูกไม่เปิดเผยตัวตนสามารถถือว่าปลอดภัยจากการไม่เปิดเผยตัวตนได้หรือไม่?: บางคนโต้แย้งว่าการไม่เปิดเผยตัวตนอย่างระมัดระวังทำให้การระบุตัวตนซ้ำเป็นเรื่องเล็กน้อยในทางปฏิบัติ ในขณะที่คนอื่นๆ แสดงให้เห็นว่าการระบุตัวตนซ้ำสามารถประสบความสำเร็จได้แม้ในชุดข้อมูลที่ไม่สมบูรณ์ ซึ่งหมายความว่าการไม่เปิดเผยตัวตนเป็นเรื่องของระดับและบริบทมากกว่าการรับประกันที่แน่นอน

Seminal works

sweeney-2002
dwork-2006
machanavajjhala-2007

Frequently asked questions

ความแตกต่างระหว่าง k-anonymity และ differential privacy คืออะไร?: k-anonymity เป็นคุณสมบัติของชุดข้อมูลที่เผยแพร่ ซึ่งรับรองว่าแต่ละระเบียนไม่สามารถแยกแยะได้จากระเบียนอื่นอย่างน้อย k-1 รายการบนตัวระบุเสมือน Differential privacy เป็นคุณสมบัติของการวิเคราะห์หรือกลไกการเผยแพร่ ซึ่งจำกัดว่าการมีอยู่ของแต่ละบุคคลสามารถเปลี่ยนแปลงผลลัพธ์ได้มากน้อยเพียงใดโดยการเพิ่มสัญญาณรบกวนที่ปรับเทียบแล้ว ทั้งสองปกป้องความเป็นส่วนตัวในวิธีที่แตกต่างกันและสามารถใช้เพื่อวัตถุประสงค์ที่แตกต่างกันได้
การไม่เปิดเผยตัวตนช่วยขจัดความเสี่ยงของการระบุตัวตนซ้ำได้อย่างสมบูรณ์หรือไม่?: ไม่ การไม่เปิดเผยตัวตนช่วยลดแต่ไม่เสมอไปที่จะขจัดความเสี่ยง งานวิจัยแสดงให้เห็นว่าบางครั้งบุคคลสามารถถูกระบุตัวตนซ้ำได้จากชุดข้อมูลที่ถูกไม่เปิดเผยตัวตนหรือไม่สมบูรณ์ ดังนั้นความเสี่ยงที่เหลืออยู่จึงต้องได้รับการประเมินและจัดการ แทนที่จะถือว่าไม่มีเลย