Computer >> คอมพิวเตอร์ >  >> การเขียนโปรแกรม >> การเขียนโปรแกรม

Outliers คืออะไร?


ค่าผิดปกติคืออ็อบเจ็กต์ข้อมูลที่แยกจากออบเจ็กต์ที่เหลือเป็นหลัก ราวกับว่ามันถูกสร้างโดยกลไกหลายอย่าง เพื่อความสะดวกในการนำเสนอ มันสามารถกำหนดออบเจ็กต์ข้อมูลที่ไม่ใช่ค่าผิดปกติเป็น "ปกติ" หรือข้อมูลที่คาดหวังได้ โดยปกติแล้ว มันสามารถกำหนดค่าผิดปกติเป็นข้อมูล "ผิดปกติ" ได้

ค่าผิดปกติคือส่วนประกอบข้อมูลที่ไม่สามารถรวมในคลาสหรือคลัสเตอร์ที่กำหนด นี่คือออบเจ็กต์ข้อมูลที่มีพฤติกรรมหลายอย่างจากการทำงานปกติของออบเจ็กต์ข้อมูลต่างๆ การวิเคราะห์ข้อมูลประเภทนี้มีความสำคัญต่อการขุดความรู้

ค่าผิดปกติต่างจากข้อมูลที่ส่งเสียงดัง สัญญาณรบกวนเป็นข้อบกพร่องแบบสุ่มหรือความแปรปรวนในตัวแปรที่คำนวณ โดยทั่วไปแล้ว สัญญาณรบกวนไม่ได้น่าสนใจในการวิเคราะห์ข้อมูล เช่น การตรวจจับค่าผิดปกติ

ตัวอย่างเช่น ในการตรวจจับการฉ้อโกงบัตรเครดิต พฤติกรรมการซื้อของผู้ใช้สามารถสร้างแบบจำลองเป็นตัวแปรสุ่มได้ ผู้ใช้สามารถ "ทำธุรกรรมที่น่ารำคาญ" บางอย่างที่สามารถดูได้ เช่น "ข้อผิดพลาดแบบสุ่ม" หรือ "ความแปรปรวน" ซึ่งรวมถึงการซื้ออาหารกลางวันมื้อใหญ่ในวันหนึ่ง หรือรับกาแฟเพิ่มอีก 1 แก้วจากปกติ

ธุรกรรมดังกล่าวไม่ควรถือเป็นค่าผิดปกติ ดังนั้นบริษัทบัตรเครดิตอาจมีค่าใช้จ่ายสูงจากการตรวจสอบการทำธุรกรรมบางรายการ บริษัทยังสามารถสูญเสียผู้ใช้โดยรบกวนพวกเขาด้วยการเตือนที่ผิดพลาดหลายครั้ง เนื่องจากบริการวิเคราะห์ข้อมูลและบริการขุดข้อมูลหลายอย่าง เสียงรบกวนจะต้องถูกกำจัดก่อนการตรวจจับสิ่งผิดปกติ

ฐานข้อมูลในโลกแห่งความเป็นจริงบางฐานข้อมูลมีข้อมูลผิดปกติหรือข้อมูลที่ขาดหายไป ไม่ระบุตัวตน หรือผิดพลาด อัลกอริธึมการทำคลัสเตอร์บางตัวใช้ข้อมูลดังกล่าวอย่างเข้มข้น และอาจเริ่มต้นไปยังคลัสเตอร์ที่มีคุณภาพต่ำได้

ค่าผิดปกติเป็นสิ่งที่น่าสนใจเพราะถูกสงสัยว่าไม่ได้ถูกสร้างขึ้นโดยโครงสร้างเดียวกันกับข้อมูลที่เหลือ ดังนั้น ในการตรวจจับค่าผิดปกติ จำเป็นต้องให้เหตุผลว่าเหตุใดค่าผิดปกติที่ระบุจึงเกิดจากกลไกหลายอย่าง

ซึ่งทำได้โดยการสร้างสมมติฐานต่างๆ เกี่ยวกับข้อมูลที่เหลือ และแสดงว่าค่าผิดปกติที่ตรวจพบนั้นละเมิดสมมติฐานเหล่านั้นโดยพื้นฐานแล้ว การตรวจจับค่าผิดปกติยังสัมพันธ์กับการตรวจจับความแปลกใหม่ในชุดข้อมูลด้วย ตัวอย่างเช่น การดูเว็บไซต์โซเชียลมีเดียที่มีเนื้อหาใหม่เข้ามาใกล้ การตรวจจับความแปลกใหม่สามารถระบุหัวข้อและแนวโน้มใหม่ๆ ได้ทันท่วงที

เดิมหัวข้อนวนิยายสามารถปรากฏเป็นค่าผิดปกติได้ การตรวจจับค่าผิดปกติและการตรวจจับสิ่งใหม่มีความคล้ายคลึงกันในแนวทางการสร้างแบบจำลองและการตรวจจับ แต่ข้อแตกต่างที่สำคัญระหว่างสองสิ่งนี้คือในการตรวจจับความแปลกใหม่ เมื่ออาสาสมัครรายใหม่ได้รับการยืนยัน โดยทั่วไปแล้ว พวกเขาจะรวมเข้ากับรูปแบบของพฤติกรรมทั่วไป เพื่อไม่ให้อินสแตนซ์ที่ตามมาไม่ถือว่าเป็นค่าผิดปกติอีกต่อไป