Computer >> คอมพิวเตอร์ >  >> การเขียนโปรแกรม >> การเขียนโปรแกรม

การตรวจจับค่าผิดปกติคืออะไร?


ค่าผิดปกติคืออ็อบเจ็กต์ข้อมูลที่แยกจากออบเจ็กต์ที่เหลือโดยพื้นฐานแล้วราวกับว่ามันถูกสร้างโดยกลไกหลายอย่าง สำหรับเนื้อหาของการสาธิต สามารถกำหนดออบเจ็กต์ข้อมูลที่ไม่ใช่ค่าผิดปกติเป็น "ปกติ" หรือข้อมูลที่คาดหวังได้ โดยปกติแล้ว มันสามารถกำหนดค่าผิดปกติเป็นข้อมูล "ผิดปกติ" ได้

ค่าผิดปกติคือส่วนประกอบข้อมูลที่ไม่สามารถรวมในคลาสหรือคลัสเตอร์ที่กำหนด นี่คือออบเจ็กต์ข้อมูลที่มีพฤติกรรมหลายอย่างจากพฤติกรรมปกติของออบเจ็กต์ข้อมูลต่างๆ การวิเคราะห์ข้อมูลประเภทนี้มีความสำคัญต่อการขุดความรู้

ค่าผิดปกติเป็นสิ่งที่น่าสนใจเพราะถูกสงสัยว่าไม่ได้ถูกสร้างขึ้นโดยโครงสร้างเดียวกันกับข้อมูลที่เหลือ ดังนั้น ในการตรวจจับค่าผิดปกติ จำเป็นต้องให้เหตุผลว่าเหตุใดค่าผิดปกติที่ระบุจึงเกิดจากกลไกหลายอย่าง

การจำแนกประเภทหนึ่งเรียกว่าการตรวจหาค่าผิดปกติ (หรือความแปลกใหม่) เนื่องจากอัลกอริธึมการเรียนรู้สามารถใช้เพื่อแยกความแตกต่างระหว่างข้อมูลที่เกิดขึ้นตามปกติและผิดปกติเกี่ยวกับการกระจายของบันทึกการฝึกอบรม

ตัวอย่างเช่น การดูเว็บไซต์โซเชียลมีเดียที่มีเนื้อหาใหม่เข้ามาใกล้ การตรวจจับความแปลกใหม่สามารถระบุหัวข้อและแนวโน้มใหม่ได้ทันที เดิมหัวข้อนวนิยายสามารถปรากฏเป็นค่าผิดปกติได้

การตรวจจับค่าผิดปกติและการตรวจจับสิ่งใหม่มีความคล้ายคลึงกันในแนวทางการสร้างแบบจำลองและการตรวจจับ แต่ข้อแตกต่างที่สำคัญระหว่างสองสิ่งนี้คือในการตรวจจับความแปลกใหม่ เมื่ออาสาสมัครรายใหม่ได้รับการยืนยัน โดยทั่วไปแล้ว พวกเขาจะรวมเข้ากับรูปแบบของพฤติกรรมทั่วไป เพื่อไม่ให้อินสแตนซ์ที่ตามมาไม่ถือว่าเป็นค่าผิดปกติอีกต่อไป

วิธีการทางสถิติทั่วไปในการจำแนกประเภทหนึ่งคือการรับรู้ค่าผิดปกติเป็นอินสแตนซ์ที่อยู่ไกล d จากเปอร์เซ็นต์ p ที่กำหนดของข้อมูลการฝึกอบรม ยิ่งไปกว่านั้น ความหนาแน่นของความน่าจะเป็นสามารถคำนวณสำหรับคลาสเป้าหมายได้ด้วยการแจกแจงทางสถิติ รวมทั้งเกาส์เซียน เข้ากับข้อมูลการฝึกอบรม อินสแตนซ์ทดสอบบางรายการที่มีค่าความน่าจะเป็นต่ำอาจปรากฏเป็นค่าผิดปกติได้

ตัวแยกประเภทแบบหลายคลาสสามารถปรับให้เข้ากับตำแหน่งแบบคลาสเดียวได้โดยการใส่ขอบเขตรอบข้อมูลโฟกัสและถือว่าตัวอย่างที่อยู่ภายนอกเป็นค่าผิดปกติ ขอบเขตสามารถสร้างได้โดยการแก้ไขการทำงานภายในของตัวแยกประเภทหลายคลาสปัจจุบันรวมถึงเครื่องเวกเตอร์สนับสนุน

วิธีการเหล่านี้อาศัยพารามิเตอร์ที่ตัดสินว่าข้อมูลเป้าหมายมีแนวโน้มที่จะถูกกำหนดให้เป็นค่าผิดปกติมากน้อยเพียงใด หากเลือกอย่างระมัดระวังเกินไป ข้อมูลในคลาสโฟกัสจะลดลงอย่างผิดพลาด หากเลือกอย่างเสรีเกินไป แบบจำลองจะพอดีและปฏิเสธระเบียนที่ถูกต้องมากเกินไป โดยทั่วไป อัตราการปฏิเสธจะไม่สามารถแก้ไขได้ในระหว่างการทดสอบ เนื่องจากจำเป็นต้องเลือกค่าพารามิเตอร์ที่เหมาะสมในขณะฝึก