Computer >> คอมพิวเตอร์ >  >> การเขียนโปรแกรม >> การเขียนโปรแกรม

อะไรคือประเด็นเพิ่มเติมของ K-Means Algorithm ในการขุดข้อมูล?


K-Means Algorithm มีประเด็นต่างๆ ดังนี้ −

การจัดการคลัสเตอร์ว่าง − ปัญหาแรกกับอัลกอริธึม K-mean พื้นฐานที่ให้ไว้ก่อนหน้านี้คือ สามารถรับคลัสเตอร์ null ได้หากไม่มีการจัดสรรคะแนนให้กับคลัสเตอร์ในระหว่างขั้นตอนการกำหนด หากเกิดเหตุการณ์นี้ขึ้น จำเป็นต้องใช้วิธีการในการเลือกเซนทรอยด์แทนที่ เนื่องจากข้อผิดพลาดกำลังสองจะมากกว่าที่จำเป็น

วิธีหนึ่งคือเลือกจุดที่อยู่ห่างจากเซนทรอยด์ล่าสุด หากสิ่งนี้ลบจุดที่ก่อให้เกิดข้อผิดพลาดกำลังสองทั้งหมด อีกวิธีหนึ่งคือการเลือกเซนทรอยด์ทดแทนจากคลัสเตอร์ที่มี SSE ที่ใหญ่ที่สุด โดยทั่วไปจะแบ่งคลัสเตอร์และลด SSE ทั้งหมดของคลัสเตอร์ หากมีหลายคลัสเตอร์ null กระบวนการนี้สามารถทำซ้ำได้หลายครั้ง

ค่าผิดปกติ − เมื่อใช้วิธีข้อผิดพลาดกำลังสอง ค่าผิดปกติอาจมีแนวโน้มไปยังคลัสเตอร์ที่ค้นพบอย่างไม่เหมาะสม โดยเฉพาะอย่างยิ่ง เมื่อมีค่าผิดปกติ คลัสเตอร์เซ็นทรอยด์ (ต้นแบบ) ที่เป็นผลลัพธ์จะไม่สามารถเป็นตัวแทนได้อย่างที่ควรเป็น ดังนั้น SSE ก็จะสูงขึ้นเช่นกัน

การค้นหาค่าผิดปกติและลบออกก่อนจะเป็นประโยชน์ เป็นสิ่งสำคัญที่ต้องชื่นชมว่ามีแอปพลิเคชันการทำคลัสเตอร์เฉพาะที่ไม่ควรลบค่าผิดปกติ เมื่อใช้การจัดกลุ่มสำหรับการบีบอัดข้อมูล แต่ละจุดควรจัดกลุ่ม และในบางกรณี รวมถึงการวิเคราะห์ทางการเงิน ค่าผิดปกติที่น่าจะเป็นไปได้ เช่น ผู้ใช้ที่ทำกำไรอย่างผิดปกติอาจเป็นจุดที่น่าสนใจ

การลด SSE ด้วยการประมวลผลภายหลัง − วิธีการลด SSE คือการหาคลัสเตอร์เพิ่มเติม เช่น ต้องการ K ที่ใหญ่กว่า ในกรณีเช่นนี้ มีแนวโน้มที่จะปรับปรุง SSE แต่ไม่จำเป็นต้องเพิ่มจำนวนคลัสเตอร์ สิ่งนี้เป็นไปได้เพราะโดยทั่วไปแล้ว Kmeans จะบรรจบกับค่าต่ำสุดในพื้นที่

มีการใช้วิธีการต่างๆ เพื่อ "แก้ไข" คลัสเตอร์ที่เป็นผลลัพธ์เพื่อสร้างคลัสเตอร์ที่มี SSE ต่ำกว่า วิธีการนี้คือการกำหนดเป้าหมายในแต่ละคลัสเตอร์ เนื่องจาก SSE ที่สมบูรณ์นั้นเป็นผลรวมของ SSE ที่มีส่วนร่วมโดยทุกคลัสเตอร์ได้อย่างง่ายดาย สามารถเปลี่ยน SSE ทั้งหมดได้โดยใช้การดำเนินการหลายอย่างกับคลัสเตอร์ รวมถึงการแยกหรือการรวมคลัสเตอร์

วิธีหนึ่งคือการใช้ขั้นตอนการแยกและการรวมคลัสเตอร์สำรอง ระหว่างขั้นตอนการแยก คลัสเตอร์จะถูกแบ่ง ในขณะที่กระบวนการรวม คลัสเตอร์จะถูกรวมเข้าด้วยกัน ในวิธีนี้ สามารถเข้าถึงเพื่อถอน SSE ขั้นต่ำในเครื่องและสร้างโซลูชันการทำคลัสเตอร์ด้วยจำนวนคลัสเตอร์ที่ยึดได้ ต่อไปนี้เป็นวิธีการบางอย่างที่ใช้ในเฟสการแยกและการรวมซึ่งมีดังต่อไปนี้ -