Computer >> คอมพิวเตอร์ >  >> การเขียนโปรแกรม >> การเขียนโปรแกรม

อะไรคือความท้าทายของ Outlier Detection ในข้อมูลมิติสูง?


การตรวจหาค่าผิดปกติในข้อมูลมิติสูงมีความท้าทายหลายประการดังนี้ −

การตีความค่าผิดปกติ − พวกเขาจะต้องสามารถไม่เพียงแต่ระบุค่าผิดปกติ แต่ยังสนับสนุนการตีความของค่าผิดปกติ เนื่องจากคุณลักษณะ (หรือมิติข้อมูล) หลายอย่างมีอยู่ในชุดข้อมูลที่มีมิติข้อมูลสูง การระบุค่าผิดปกติโดยไม่สนับสนุนการตีความว่าเหตุใดจึงเป็นค่าผิดปกติจึงไม่เป็นประโยชน์อย่างยิ่ง

การตีความค่าผิดปกติอาจปรากฏขึ้นจากช่องว่างย่อยที่แน่นอนซึ่งแสดงค่าผิดปกติหรือการประเมินเกี่ยวกับ "ความเบี่ยงเบน" ของวัตถุ การตีความดังกล่าวสามารถสนับสนุนให้ผู้ใช้เรียนรู้ความหมายและความสำคัญของค่าผิดปกติที่อาจเกิดขึ้นได้

ข้อมูลไม่เพียงพอ − วิธีการต้องสามารถจัดการการกระจัดกระจายในพื้นที่ที่มีมิติสูงได้ ระยะห่างระหว่างวัตถุจะถูกรบกวนอย่างหนักเมื่อมิติดีขึ้น ดังนั้นข้อมูลในพื้นที่มิติสูงจึงเบาบาง

ช่องว่างย่อยของข้อมูล − พวกเขาควรจำลองค่าผิดปกติอย่างเหมาะสม ตัวอย่างเช่น ปรับให้เข้ากับพื้นที่ย่อยที่บ่งบอกถึงค่าผิดปกติและรับพฤติกรรมท้องถิ่นของข้อมูล อาจใช้เกณฑ์ระยะทางคงที่กับพื้นที่ย่อยบางพื้นที่เพื่อระบุค่าผิดปกติไม่ใช่แนวคิดที่ดีที่สุด เนื่องจากระยะห่างระหว่างวัตถุ 2 ชิ้นจะเพิ่มขึ้นอย่างซ้ำซากจำเจเมื่อมิติเพิ่มขึ้น

ความสามารถในการปรับขนาดตามมิติ − เมื่อมิติเพิ่มขึ้น สเปซย่อยหลายอันก็จะเพิ่มขึ้นแบบทวีคูณ การวิเคราะห์เชิงผสมผสานอย่างละเอียดถี่ถ้วนของพื้นที่การค้นหา ซึ่งรวมถึงช่องว่างย่อยที่เป็นไปได้บางส่วน ไม่ใช่วิธีการที่ปรับขนาดได้

วิธีการตรวจหาค่า Outlier สำหรับข้อมูลมิติสูงสามารถแบ่งออกได้เป็น 3 วิธีหลัก ๆ ดังนี้ −

ขยายการตรวจหาค่าผิดปกติแบบธรรมดา − วิธีหนึ่งสำหรับการตรวจหาค่าผิดปกติในข้อมูลมิติสูงช่วยปรับปรุงวิธีการตรวจหาค่าผิดปกติแบบเดิม ต้องใช้โมเดลค่าผิดปกติแบบใช้ระยะใกล้แบบธรรมดา มันสามารถเอาชนะการเสื่อมสภาพของการวัดระยะใกล้ในพื้นที่ที่มีมิติสูง มันจำเป็นต้องมีการวัดทดแทนหรือสร้างช่องว่างย่อยและตรวจจับค่าผิดปกติที่นั่น

อัลกอริทึมของ HilOut เป็นตัวอย่างของวิธีนี้ HilOut ค้นพบค่าผิดปกติตามระยะทาง แต่ต้องการอันดับของระยะทางมากกว่าระยะทางสัมบูรณ์ในการตรวจจับค่าผิดปกติ โดยเฉพาะอย่างยิ่ง สำหรับแต่ละอ็อบเจ็กต์ o HilOut จะค้นหาเพื่อนบ้านที่ใกล้ที่สุด k ของ o ซึ่งระบุโดย nn1 (o),...,nnk (o) โดยที่ k คือพารามิเตอร์ที่ขึ้นกับซอฟต์แวร์

น้ำหนักของวัตถุ o แสดงเป็น

$$\mathrm{w(o) =\displaystyle\sum\limits_{i=1}^k dist(o,nn_{i}(o))}$$

การค้นหาค่าผิดปกติในพื้นที่ย่อย − อีกวิธีหนึ่งสำหรับการตรวจหาค่าผิดปกติในข้อมูลมิติสูงคือ การหาค่าผิดปกติในหลายพื้นที่ย่อย ประโยชน์เฉพาะคือ ถ้าวัตถุถูกค้นพบว่าเป็นค่าผิดปกติใน subspace ที่มีมิติที่ต่ำกว่ามาก subspace จะสนับสนุนข้อมูลที่สำคัญสำหรับการดำเนินการสาเหตุและขอบเขตของวัตถุที่เป็นค่าผิดปกติ สิ่งนี้มีค่ามหาศาลในแอปพลิเคชันที่มีข้อมูลมิติสูงเนื่องจากมีมิติข้อมูลจำนวนมาก

การสร้างแบบจำลองค่าผิดปกติของมิติสูง − วิธีทางเลือกสำหรับวิธีการตรวจหาค่าผิดปกติในความพยายามข้อมูลมิติสูงเพื่อสร้างแบบจำลองใหม่สำหรับค่าผิดปกติของมิติสูงอย่างแม่นยำ