Computer >> คอมพิวเตอร์ >  >> การเขียนโปรแกรม >> การเขียนโปรแกรม

ความต้องการของคลัสเตอร์ในการทำเหมืองข้อมูลมีอะไรบ้าง?


มีข้อกำหนดของการจัดกลุ่มในการทำเหมืองข้อมูลดังต่อไปนี้ -

ความสามารถในการปรับขนาด − อัลกอริธึมการทำคลัสเตอร์บางตัวทำงานได้ดีกับชุดข้อมูลขนาดเล็ก รวมถึงออบเจ็กต์ข้อมูลน้อยกว่าร้อยรายการ ฐานข้อมูลขนาดใหญ่สามารถรวมอ็อบเจ็กต์ได้หลายล้านรายการ การทำคลัสเตอร์บนตัวอย่างของชุดข้อมูลขนาดใหญ่ที่กำหนดอาจนำไปสู่ผลลัพธ์เพียงบางส่วน ต้องใช้อัลกอริธึมการทำคลัสเตอร์ที่ปรับขนาดได้สูง

ความสามารถในการจัดการกับแอตทริบิวต์ประเภทต่างๆ − อัลกอริทึมบางตัวออกแบบมาเพื่อจัดกลุ่มข้อมูลตามช่วงเวลา (ตัวเลข) อย่างไรก็ตาม แอปพลิเคชันอาจต้องการคลัสเตอร์ข้อมูลหลายประเภท รวมถึงข้อมูลไบนารี ข้อมูลหมวดหมู่ (ระบุ) และลำดับ หรือข้อมูลประเภทผสมกัน

การค้นพบกระจุกที่มีรูปร่างตามอำเภอใจ − อัลกอริธึมการจัดกลุ่มบางตัวกำหนดคลัสเตอร์โดยขึ้นอยู่กับการวัดระยะทางแบบยุคลิดหรือแมนฮัตตัน อัลกอริทึมที่ขึ้นอยู่กับการวัดระยะทางดังกล่าวมักจะพบกระจุกทรงกลมที่มีขนาดและความหนาแน่นเท่ากัน แต่คลัสเตอร์สามารถมีรูปร่างใดก็ได้ การพัฒนาอัลกอริธึมที่จดจำกลุ่มของรูปร่างได้ตามต้องการเป็นสิ่งสำคัญ

ข้อกำหนดขั้นต่ำสำหรับความรู้โดเมนเพื่อกำหนดพารามิเตอร์อินพุต อัลกอริทึมการจัดกลุ่มบางอย่างต้องการให้ผู้ใช้ป้อนพารามิเตอร์เฉพาะในการวิเคราะห์คลัสเตอร์ (รวมถึงจำนวนคลัสเตอร์ที่ต้องการ) ผลลัพธ์การจัดกลุ่มอาจมีความละเอียดอ่อนอย่างยิ่งต่อพารามิเตอร์อินพุต พารามิเตอร์ตัดสินใจได้ยาก โดยเฉพาะสำหรับชุดข้อมูลรวมถึงออบเจ็กต์ที่มีมิติสูง ซึ่งไม่เพียงแค่ผู้ใช้งานเท่านั้น แต่ยังสร้างคุณภาพของการจัดกลุ่มที่ควบคุมได้ยากอีกด้วย

ความสามารถในการจัดการกับข้อมูลที่มีเสียงดัง − ฐานข้อมูลในโลกแห่งความเป็นจริงส่วนใหญ่มีข้อมูลผิดปกติหรือข้อมูลที่ขาดหายไป ไม่ทราบข้อมูล หรือข้อมูลที่ผิดพลาด อัลกอริธึมการทำคลัสเตอร์บางตัวสนใจข้อมูลดังกล่าวและอาจนำไปสู่คลัสเตอร์ที่มีคุณภาพต่ำ

การจัดกลุ่มที่เพิ่มขึ้นและไม่ตอบสนองต่อลำดับของระเบียนอินพุต - อัลกอริธึมการทำคลัสเตอร์บางตัวไม่สามารถรวมข้อมูลที่แทรกใหม่ (เช่น การอัพเดตฐานข้อมูล) ลงในโครงสร้างคลัสเตอร์ปัจจุบัน และต้องตัดสินใจทำคลัสเตอร์ใหม่ตั้งแต่ต้นแทน

อัลกอริธึมการทำคลัสเตอร์บางตัวมีความไวต่อลำดับของเร็กคอร์ดอินพุต กำหนดชุดของออบเจ็กต์ข้อมูล รวมถึงอัลกอริธึมสามารถส่งคืนคลัสเตอร์ที่แตกต่างกันอย่างมาก ขึ้นอยู่กับลำดับการนำเสนอของออบเจ็กต์อินพุต จำเป็นอย่างยิ่งที่จะต้องพัฒนาอัลกอริธึมการจัดกลุ่มแบบเพิ่มหน่วยและอัลกอริทึมที่ไม่คำนึงถึงลำดับของอินพุต

มิติสูง − ฐานข้อมูลหรือคลังข้อมูลสามารถมีหลายมิติหรือแอตทริบิวต์ได้ อัลกอริธึมการทำคลัสเตอร์บางตัวสามารถจัดการข้อมูลมิติต่ำได้ดี โดยมีเพียงสองถึงสามมิติ ดวงตาของมนุษย์นั้นดีที่สุดในการพิจารณาคุณภาพของการจัดกลุ่มเป็นสามมิติ ใช้เพื่อค้นหาคลัสเตอร์ของออบเจ็กต์ข้อมูลในพื้นที่มิติสูงที่มีความซับซ้อน โดยเฉพาะอย่างยิ่งการจัดการว่าข้อมูลดังกล่าวอาจไม่เพียงพอและมีความเบ้สูง