Computer >> คอมพิวเตอร์ >  >> การเขียนโปรแกรม >> การเขียนโปรแกรม

อะไรคือสาเหตุของความผิดปกติ?


ในการตรวจจับความผิดปกติ มีวัตถุประสงค์เพื่อค้นหาวัตถุที่แตกต่างจากวัตถุหลายชิ้น บ่อยครั้ง อ็อบเจ็กต์ผิดปกติถูกเรียกว่า ค่าผิดปกติ เนื่องจากในแผนภาพกระจายของข้อมูล วัตถุเหล่านี้อยู่ห่างจากจุดข้อมูลหลายจุด การตรวจจับความผิดปกติเรียกว่าการตรวจจับการเบี่ยงเบน เนื่องจากวัตถุผิดปกติมีค่าแอตทริบิวต์ที่เบี่ยงเบนไปจากค่าแอตทริบิวต์ที่คาดไว้หรือค่าแอตทริบิวต์ทั่วไปเป็นหลัก หรือเป็นการขุดข้อยกเว้น เนื่องจากความผิดปกติมีความพิเศษหลายประการ

ในโลก สังคมมนุษย์ หรือโดเมนของกลุ่มข้อมูล เหตุการณ์และอ็อบเจ็กต์ส่วนใหญ่เป็นแบบตัวแทน พื้นที่ส่วนกลางหรือแบบปกติ แต่สามารถมีความรู้อย่างเฉียบแหลมเกี่ยวกับความเป็นไปได้ของวัตถุที่แตกต่างกันหรือไม่ธรรมดา ซึ่งรวมถึงฤดูแล้งหรือฤดูฝน นักกีฬายอดนิยม หรือค่าแอตทริบิวต์ที่น้อยกว่าหรือสูงกว่าอื่นๆ มาก

มีสาเหตุของความผิดปกติดังต่อไปนี้ -

ข้อมูลจากคลาสต่างๆ − วัตถุอาจแตกต่างจากวัตถุหลายชิ้น เช่น ความผิดปกติ เนื่องจากเป็นวัตถุหลายประเภทหรือหลายชั้น ตัวอย่างเช่น บุคคลที่กระทำการฉ้อโกงบัตรเครดิตเป็นของผู้ใช้บัตรเครดิตหลายกลุ่ม มากกว่าบุคคลที่ต้องการบัตรเครดิตอย่างแม่นยำ

ตัวอย่างบางส่วนที่แสดง เช่น การฉ้อโกง การบุกรุก การระบาดของโรค และผลการทดสอบที่ผิดปกติ เป็นกรณีของความผิดปกติที่กำหนดองค์ประกอบประเภทต่างๆ ความผิดปกติดังกล่าวเป็นที่สนใจอย่างมากและเป็นเป้าหมายของการระบุความผิดปกติในด้านการทำเหมืองข้อมูล

ความแปรปรวนตามธรรมชาติ − ชุดข้อมูลบางชุดสามารถสร้างแบบจำลองได้โดยการแจกแจงทางสถิติ รวมถึงการแจกแจงแบบปกติ (เกาส์เซียน) โดยที่ความน่าจะเป็นของวัตถุข้อมูลจะลดลงเรื่อยๆ เมื่อระยะห่างของวัตถุจากจุดกึ่งกลางของการแจกแจงเพิ่มขึ้น

ในอีกแง่หนึ่ง วัตถุบางอย่างอยู่ใกล้จุดศูนย์กลาง (วัตถุเฉลี่ย) และความเป็นไปได้ที่วัตถุจะแตกต่างจากวัตถุเฉลี่ยนี้มีน้อย ตัวอย่างเช่น คนที่ตัวสูงเป็นพิเศษนั้นไม่ได้ผิดปกติในวิธีการที่มาจากคลาสอิสระของวัตถุ แต่เฉพาะในวิธีการที่มีค่าสมบูรณ์สำหรับลักษณะเฉพาะ (ความสูง) ที่วัตถุบางอย่างกินเข้าไป ความผิดปกติที่กำหนดรูปแบบที่รุนแรงหรือไม่น่าจะเกิดขึ้นได้นั้นน่าสนใจ

ข้อผิดพลาดในการวัดและรวบรวมข้อมูล − ข้อผิดพลาดในชุดข้อมูลหรือกระบวนการวัดเป็นอีกสาเหตุหนึ่งของความผิดปกติ ตัวอย่างเช่น สามารถบันทึกการวัดอย่างไม่ถูกต้องเนื่องจากปัญหาข้อผิดพลาดของมนุษย์กับอุปกรณ์คอมพิวเตอร์ หรือมีเสียงรบกวน

วัตถุประสงค์คือเพื่อลบความผิดปกติดังกล่าว เนื่องจากไม่สนับสนุนข้อมูลที่น่าสนใจแต่เพียงลดคุณลักษณะของข้อมูลและการวิเคราะห์ข้อมูลที่ตามมา อันที่จริง การลบความผิดปกติประเภทนี้เป็นเป้าหมายของการประมวลผลข้อมูลล่วงหน้า โดยเฉพาะการล้างข้อมูล