การทำเหมืองข้อมูลเพื่อรักษาความเป็นส่วนตัวเป็นแอปพลิเคชั่นของการวิจัยการทำเหมืองข้อมูลเพื่อตอบสนองต่อความปลอดภัยความเป็นส่วนตัวในการทำเหมืองข้อมูล เรียกว่าการทำเหมืองข้อมูลที่เพิ่มความเป็นส่วนตัวหรือมีความอ่อนไหวต่อความเป็นส่วนตัว มันเกี่ยวข้องกับการได้รับผลลัพธ์การขุดข้อมูลที่แท้จริงโดยไม่เปิดเผยค่าข้อมูลที่ละเอียดอ่อนพื้นฐาน
แนวทางการทำเหมืองข้อมูลเพื่อรักษาความเป็นส่วนตัวส่วนใหญ่ใช้รูปแบบต่างๆ ของการเปลี่ยนแปลงข้อมูลเพื่อดำเนินการรักษาความเป็นส่วนตัว โดยทั่วไป วิธีการดังกล่าวจะลดความละเอียดของคำอธิบายเพื่อรักษาความเป็นส่วนตัว
ตัวอย่างเช่น พวกเขาสามารถสรุปข้อมูลจากผู้ใช้รายเดียวไปยังกลุ่มผู้ใช้ ความละเอียดที่ลดลงนี้ทำให้ข้อมูลสูญหายและอาจเกิดจากประโยชน์ของผลลัพธ์การขุดข้อมูล นี่คือการประนีประนอมระหว่างการสูญเสียข้อมูลและความเป็นส่วนตัว
วิธีการทำเหมืองข้อมูลเพื่อรักษาความเป็นส่วนตัวสามารถกำหนดได้เป็นองค์ประกอบดังต่อไปนี้ -
วิธีการสุ่ม − วิธีการเหล่านี้แทรกสัญญาณรบกวนไปยังข้อมูลเพื่อปกปิดค่าต่างๆ ของข้อมูล เสียงรบกวนที่เพิ่มเข้ามาควรมีขนาดใหญ่เพื่อไม่ให้ดึงข้อมูลแต่ละค่าของข้อมูล โดยเฉพาะค่าที่ละเอียดอ่อน
จะต้องมีการเพิ่มความชำนาญเพื่อให้ผลลัพธ์สุดท้ายของการทำเหมืองข้อมูลได้รับการเก็บรักษาไว้โดยทั่วไป มีหลายวิธีที่ได้รับการออกแบบมาเพื่อเปลี่ยนการแจกแจงรวมจากข้อมูลที่รบกวน
วิธี k-anonymity และ l-diversity − ทั้งสองวิธีเหล่านี้เปลี่ยนแปลงข้อมูลเดียวเพื่อไม่ให้ระบุอย่างเฉพาะเจาะจง ในวิธี k-anonymity ความละเอียดของการแสดงข้อมูลจะลดลงอย่างเพียงพอ เพื่อให้ข้อมูลบางส่วนจับคู่กับเร็กคอร์ดอื่นๆ ในข้อมูลขั้นต่ำ k รายการ ต้องใช้เทคนิคต่างๆ เช่น การวางนัยทั่วไปและการปราบปราม
วิธีการ k-anonymity นั้นอ่อนแอ หากมีความสม่ำเสมอของค่าที่ละเอียดอ่อนภายในกลุ่ม ค่าเหล่านั้นก็สามารถอนุมานได้สำหรับข้อมูลที่เปลี่ยนแปลง โมเดล l-diversity ได้รับการออกแบบมาเพื่อจัดการกับจุดอ่อนนี้โดยบังคับใช้ค่าที่ละเอียดอ่อนที่หลากหลายภายในกลุ่มเพื่อไม่ให้ระบุชื่อ วัตถุประสงค์คือเพื่อสร้างความยากลำบากให้เพียงพอสำหรับฝ่ายตรงข้ามในการใช้แอตทริบิวต์ข้อมูลร่วมกันเพื่อระบุระเบียนเดียวได้อย่างแม่นยำ
กระจายการรักษาความเป็นส่วนตัว − ชุดข้อมูลขนาดใหญ่สามารถแบ่งพาร์ติชั่นและแจกจ่ายได้ทั้งในแนวนอน (เช่น ชุดข้อมูลถูกแบ่งเป็นชุดย่อยของข้อมูลหลายชุดและกระจายไปตามไซต์ต่างๆ) หรือในแนวตั้ง (เช่น ชุดข้อมูลจะถูกแบ่งพาร์ติชั่นและแจกจ่ายตามแอตทริบิวต์) หรือใน ทั้งสองชุด
แม้ว่าไซต์เดียวจะไม่จำเป็นต้องแชร์ชุดข้อมูลทั้งหมด แต่ก็สามารถยินยอมให้มีการแชร์ข้อมูลแบบจำกัดโดยใช้โปรโตคอลหลายตัว ผลกระทบโดยสมบูรณ์ของวิธีการดังกล่าวคือการสนับสนุนความเป็นส่วนตัวสำหรับแต่ละออบเจ็กต์ ขณะที่เปลี่ยนผลลัพธ์โดยรวมของข้อมูลบางส่วน
การปรับลดประสิทธิภาพของผลลัพธ์การขุดข้อมูล − ในหลายกรณี แม้ว่าข้อมูลจะไม่สามารถใช้ได้ แต่ผลลัพธ์ของการขุดข้อมูล (เช่น กฎการเชื่อมโยงและแบบจำลองการจัดหมวดหมู่) อาจส่งผลให้เกิดการละเมิดความเป็นส่วนตัว วิธีแก้ปัญหาคือดาวน์เกรดประสิทธิภาพของการขุดข้อมูลโดยการเปลี่ยนข้อมูลหรือผลการขุด รวมถึงการซ่อนกฎการเชื่อมโยงหรือบิดเบือนแบบจำลองการจัดหมวดหมู่บางประเภท