Computer >> คอมพิวเตอร์ >  >> การเขียนโปรแกรม >> การเขียนโปรแกรม

PROCLUS คืออะไร?


PROCLUS ย่อมาจาก Projected Clustering เป็นเทคนิคการจัดกลุ่มพื้นที่ย่อยการลดขนาดตามปกติ นั่นคือ แทนที่จะเริ่มจากช่องว่างแต่ละมิติ มันเริ่มต้นด้วยการหาค่าประมาณดั้งเดิมของคลัสเตอร์ในพื้นที่แอตทริบิวต์ที่มีมิติสูง

แต่ละมิติสร้างน้ำหนักสำหรับแต่ละคลัสเตอร์ และน้ำหนักที่รีเฟรชจะใช้ในการทำซ้ำครั้งถัดไปเพื่อสร้างคลัสเตอร์ขึ้นใหม่ สิ่งนี้นำไปสู่การสำรวจพื้นที่หนาแน่นในทุกพื้นที่ย่อยของมิติที่สะดวกบางส่วน และป้องกันการสร้างคลัสเตอร์ที่ทับซ้อนกันจำนวนมากในมิติที่คาดการณ์ไว้ของมิติที่ต่ำกว่า

PROCLUS ค้นพบกลุ่ม medoids ที่ดีที่สุดโดยช่วงปีนเขาที่คล้ายกับที่ใช้ในคลารันส์ แต่โดยทั่วไปแล้วจะจัดการด้วยการจัดกลุ่มที่คาดการณ์ไว้ ใช้การวัดระยะทางที่เรียกว่าระยะทางปล้องแมนฮัตตัน ซึ่งเป็นระยะทางแมนฮัตตันในกลุ่มมิติที่เหมาะสม

อัลกอริธึม PROCLUS ประกอบด้วยสามกระบวนการดังต่อไปนี้:การเริ่มต้น การวนซ้ำ และการปรับแต่งคลัสเตอร์ ในกระบวนการเริ่มต้น ต้องใช้อัลกอริธึมที่โลภเพื่อเลือกชุดของ Medoid ดั้งเดิมที่อยู่ห่างไกลจากกันเพื่อให้แต่ละคลัสเตอร์ถูกกำหนดโดยอย่างน้อยหนึ่งวัตถุในชุดที่เลือก

สามารถเลือกตัวอย่างสุ่มของจุดข้อมูลตามสัดส่วนของหลายคลัสเตอร์ที่จำเป็นในการสร้าง จากนั้นจึงใช้อัลกอริธึมที่โลภเพื่อรับชุดย่อยสุดท้ายที่เล็กกว่าสำหรับกระบวนการถัดไป

กระบวนการวนซ้ำจะเลือกชุดสุ่มของ k medoids จากชุดที่ลดลงนี้ (ของ medoids) และกู้คืน medoids ที่ "แย่" ด้วยการสุ่มเลือก medoids ใหม่ หากการจัดกลุ่มเพิ่มขึ้น

สำหรับแต่ละ medoid กลุ่มของมิติจะถูกเลือกซึ่งมีระยะทางเฉลี่ยเล็กน้อยเมื่อเทียบกับการคาดหมายทางคณิตศาสตร์ จำนวนมิติทั้งหมดที่เกี่ยวข้องกับ medoids ควรเป็น k×l โดยที่ l คือพารามิเตอร์อินพุตที่เลือกมิติเฉลี่ยของพื้นที่ย่อยของคลัสเตอร์

กระบวนการปรับแต่งจะคำนวณขนาดใหม่สำหรับแต่ละ medoid ขึ้นอยู่กับคลัสเตอร์ที่ค้นพบ กำหนดจุดใหม่ให้กับ medoids และลบค่าผิดปกติ PROCLUS แสดงว่าวิธีการนี้มีประสิทธิภาพและสามารถปรับขนาดได้ในการค้นหาคลัสเตอร์ที่มีมิติสูง

ต่างจาก CLIQUE ซึ่งส่งออกคลัสเตอร์ที่ทับซ้อนกันจำนวนมาก PROCLUS ค้นหาพาร์ติชันของจุดที่ไม่ทับซ้อนกัน คลัสเตอร์ที่ค้นพบช่วยให้เข้าใจข้อมูลมิติสูงและรองรับการวิเคราะห์ลำดับย่อยอื่นๆ ได้ดีขึ้น

CLIQUE จำเป็นต้องค้นหาสเปซย่อยของไดเมนชันที่ใหญ่ที่สุด ซึ่งคลัสเตอร์ที่มีความหนาแน่นสูงจะดำเนินต่อไปในพื้นที่ย่อยเหล่านั้น มันไม่ตอบสนองต่อลำดับของออบเจ็กต์อินพุตและไม่แสร้งทำเป็นว่ามีการแจกแจงข้อมูลที่เป็นที่ยอมรับ โดยจะปรับขนาดเชิงเส้นตามขนาดของอินพุตและมีความสามารถในการปรับขนาดได้ดีที่สุดเนื่องจากมีการปรับปรุงมิติข้อมูลหลายรายการในข้อมูล