Computer >> คอมพิวเตอร์ >  >> การเขียนโปรแกรม >> การเขียนโปรแกรม

อะไรคือความท้าทายของการตรวจจับ Outlier?


ค่าผิดปกติคืออ็อบเจ็กต์ข้อมูลที่เบี่ยงเบนไปจากอ็อบเจ็กต์ที่เหลือ ราวกับว่ามันถูกสร้างโดยโครงสร้างอื่น เพื่อความสะดวกในการนำเสนอ มันสามารถกำหนดออบเจ็กต์ข้อมูลที่ไม่ใช่ค่าผิดปกติเป็น "ปกติ" หรือข้อมูลที่คาดหวังได้ ในทำนองเดียวกัน ก็สามารถกำหนดค่าผิดปกติเป็นข้อมูล "ผิดปกติ" ได้

ค่าผิดปกติคือส่วนประกอบข้อมูลที่ไม่สามารถรวมในคลาสหรือคลัสเตอร์ที่กำหนด นี่คือออบเจ็กต์ข้อมูลซึ่งมีพฤติกรรมหลายอย่างจากพฤติกรรมทั่วไปของออบเจ็กต์ข้อมูลต่างๆ การวิเคราะห์ข้อมูลประเภทนี้มีความสำคัญต่อการขุดความรู้

มีความท้าทายหลายประการในการตรวจจับค่าผิดปกติดังนี้ -

การสร้างแบบจำลองวัตถุปกติและค่าผิดปกติอย่างมีประสิทธิภาพ − องค์ประกอบการตรวจจับค่าผิดปกติส่วนใหญ่ขึ้นอยู่กับการสร้างแบบจำลองของวัตถุปกติ (ไม่ใช่ค่าผิดปกติ) และค่าผิดปกติ นี่เป็นเพียงเล็กน้อยเนื่องจากเป็นการยากที่จะระบุลักษณะการทำงานปกติบางอย่างที่มีอยู่ในแอปพลิเคชัน

เส้นขอบระหว่างความปกติและความผิดปกติ (ค่าผิดปกติ) ของข้อมูลไม่ชัดเจน อาจมีแอปพลิเคชันสีเทาหลากหลายรูปแบบแทน ดังนั้น ในขณะที่เทคนิคการตรวจหาค่าผิดปกติต่างๆ ที่กำหนดให้กับแต่ละออบเจ็กต์ในข้อมูลอินพุต ให้ตั้งค่าป้ายกำกับว่า "ปกติ" หรือ "ค่าผิดปกติ" วิธีอื่นๆ จะกำหนดคะแนนให้กับแต่ละออบเจ็กต์เพื่อคำนวณ "ค่าผิดปกติ" ของวัตถุ

การตรวจจับค่าผิดปกติเฉพาะแอปพลิเคชัน − เป็นการเลือกการวัดความเหมือน/ระยะทางและแบบจำลองความสัมพันธ์เพื่อกำหนดออบเจกต์ข้อมูลเป็นสิ่งสำคัญในการตรวจจับค่าผิดปกติ ขออภัย ตัวเลือกดังกล่าวขึ้นอยู่กับซอฟต์แวร์ มีหลายแอพพลิเคชั่นที่มีความต้องการได้หลากหลาย

การจัดการเสียงรบกวนในการตรวจจับค่าผิดปกติ − ค่าผิดปกติต่างจากสัญญาณรบกวน เป็นที่ทราบกันดีอยู่แล้วว่าคุณภาพของข้อมูลจริงมีอิทธิพลต่อความยากจน มีเสียงรบกวนอย่างหลีกเลี่ยงไม่ได้ในข้อมูลที่รวบรวมในหลายแอปพลิเคชัน สัญญาณรบกวนสามารถแสดงเป็นการเบี่ยงเบนในค่าแอตทริบิวต์หรือทำให้ราบรื่นเป็นค่าที่ขาดหายไปได้

คุณภาพของข้อมูลต่ำและการมีอยู่ของสัญญาณรบกวนทำให้เกิดความท้าทายอย่างมากในการตรวจจับค่าผิดปกติ พวกเขาสามารถหลอกลวงข้อมูล เบลอความแตกต่างระหว่างวัตถุปกติและค่าผิดปกติ นอกจากนี้ สัญญาณรบกวนและข้อมูลที่ขาดหายไปสามารถ "ซ่อน" ค่าผิดปกติและลดประสิทธิภาพของการตรวจจับค่าผิดปกติ ค่าผิดปกติสามารถ "ปลอมตัว" เป็นจุดสัญญาณรบกวนได้ และวิธีการตรวจจับค่าผิดปกติอาจระบุจุดเสียงรบกวนว่าเป็นค่าผิดปกติได้

ความเข้าใจ − ในวิธีการใช้งานบางวิธี ผู้ใช้สามารถไม่เพียงแต่ต้องตรวจจับค่าผิดปกติ แต่ยังเรียนรู้ด้วยว่าเหตุใดวัตถุที่ตรวจพบจึงเป็นค่าผิดปกติ มันสามารถรวมข้อกำหนดด้านความเข้าใจเข้าด้วยกัน เทคนิคการตรวจจับค่าผิดปกติจะต้องสนับสนุนเหตุผลบางประการของการตรวจจับ

ตัวอย่างเช่น สามารถใช้วิธีการทางสถิติเพื่อตรวจสอบระดับที่วัตถุสามารถเป็นค่าผิดปกติได้ ขึ้นอยู่กับความเป็นไปได้ที่วัตถุจะถูกสร้างขึ้นโดยโครงสร้างเดียวกันที่สร้างระเบียนส่วนใหญ่ ยิ่งมีโอกาสน้อยกว่า วัตถุก็ไม่น่าจะถูกสร้างขึ้นโดยโครงสร้างเดียวกัน และวัตถุที่ยอมรับได้ก็ยิ่งมีค่าผิดปกติ