Computer >> คอมพิวเตอร์ >  >> การเขียนโปรแกรม >> การเขียนโปรแกรม

Outliers ประเภทใดในการทำเหมืองข้อมูล


การทำเหมืองข้อมูลมีค่าผิดปกติหลายประเภทดังนี้ -

ค่าผิดปกติทั่วโลก − ในชุดข้อมูลที่กำหนด ออบเจ็กต์ข้อมูลคือค่าผิดปกติส่วนกลาง หากเบี่ยงเบนไปจากชุดข้อมูลที่เหลือโดยพื้นฐานแล้ว ค่าผิดปกติส่วนกลางเรียกว่าจุดผิดปกติ และเป็นประเภทที่ง่ายที่สุดของค่าผิดปกติ วิธีการตรวจหาค่าผิดปกติส่วนใหญ่มีจุดมุ่งหมายเพื่อค้นหาค่าผิดปกติทั่วโลก

มันสามารถระบุค่าผิดปกติทั่วโลก ประเด็นสำคัญคือการค้นหาการวัดความเบี่ยงเบนที่เหมาะสมเกี่ยวกับแอปพลิเคชันที่เป็นปัญหา มีการเสนอการวัดหลายแบบ และขึ้นอยู่กับวิธีการตรวจหาค่าผิดปกติซึ่งแบ่งออกเป็นหลายประเภท

การตรวจจับค่าผิดปกติส่วนกลางมีความจำเป็นในหลายแอปพลิเคชัน พิจารณาการตรวจจับการบุกรุกในเครือข่ายคอมพิวเตอร์ เช่น หากพฤติกรรมการสื่อสารของคอมพิวเตอร์แตกต่างจากการออกแบบปกติ (เช่น มีการโฆษณาแพ็คเกจจำนวนมากในระยะเวลาอันสั้น) พฤติกรรมนี้สามารถถือเป็นค่าผิดปกติทั่วโลกและ คอมพิวเตอร์ที่เกี่ยวข้องเป็นผู้ต้องสงสัยว่าเป็นผู้เสียหายจากการแฮ็ก

ค่าผิดปกติตามบริบท − ค่าผิดปกติตามบริบทเรียกว่าค่าผิดปกติแบบมีเงื่อนไข ค่าผิดปกติประเภทนี้จะปรากฏขึ้นหากวัตถุข้อมูลเบี่ยงเบนจากจุดข้อมูลหลายจุดเนื่องจากเงื่อนไขที่แน่นอนในชุดข้อมูลที่กำหนด

แอตทริบิวต์ของออบเจ็กต์ข้อมูลมีสองประเภท ได้แก่ คุณลักษณะตามบริบทและแอตทริบิวต์ด้านพฤติกรรม การวิเคราะห์ค่าผิดปกติตามบริบทช่วยให้ผู้ใช้สามารถระบุค่าผิดปกติในบริบทและเงื่อนไขต่างๆ ซึ่งอาจเป็นประโยชน์ในหลายแอปพลิเคชัน

ในคุณลักษณะเชิงพฤติกรรม มันสามารถแสดงลักษณะของวัตถุ และใช้ในการคำนวณว่าวัตถุนั้นเป็นค่าผิดปกติในบริบทที่เข้าใจหรือไม่ ในกรณีอุณหภูมิ คุณลักษณะทางพฤติกรรมอาจเป็นอุณหภูมิ ความชื้น และความดัน

ค่าผิดปกติตามบริบทเป็นลักษณะทั่วไปของค่าผิดปกติเฉพาะที่ ซึ่งเป็นแนวคิดที่นำมาใช้ในวิธีการวิเคราะห์ค่าผิดปกติตามความหนาแน่น ออบเจ็กต์ในชุดข้อมูลคือค่าผิดปกติในเครื่อง หากความหนาแน่นเบี่ยงเบนไปจากพื้นที่ที่ปรากฏเป็นหลัก

การตรวจหาค่าผิดปกติส่วนกลางสามารถกังวลได้ว่าเป็นวิธีการพิเศษในการตรวจหาค่าผิดปกติตามบริบท โดยที่กลุ่มของแอตทริบิวต์ตามบริบทเป็นค่าว่าง กล่าวคือ การตรวจหาค่าผิดปกติส่วนกลางต้องการชุดข้อมูลทั้งหมดเป็นบริบท การวิเคราะห์ค่าผิดปกติตามบริบทรองรับความยืดหยุ่นแก่ผู้ใช้ โดยสามารถระบุค่าผิดปกติในบริบทต่างๆ ได้ ซึ่งเป็นที่ต้องการในหลายแอปพลิเคชัน

ค่าผิดปกติแบบรวม − ในชุดข้อมูลที่กำหนด เมื่อชุดของจุดข้อมูลเบี่ยงเบนไปจากชุดข้อมูลที่เหลือเรียกว่า ค่าผิดปกติแบบรวม ดังนั้น ชุดของออบเจ็กต์ข้อมูลเฉพาะจึงไม่สามารถเป็นค่าผิดปกติได้ แต่เมื่อพิจารณาออบเจ็กต์ข้อมูลโดยรวมแล้ว ก็สามารถทำหน้าที่เป็นค่าผิดปกติได้

โดยสามารถจำแนกประเภทของค่าผิดปกติต่างๆ ได้ โดยจะต้องอ่านข้อมูลเบื้องหลังเกี่ยวกับความสัมพันธ์ระหว่างพฤติกรรมของค่าผิดปกติที่แสดงโดยวัตถุข้อมูลหลายรายการ