Computer >> คอมพิวเตอร์ >  >> การเขียนโปรแกรม >> การเขียนโปรแกรม

วิธีการจัดกลุ่มมีอะไรบ้าง?


มีหลายวิธีในการจัดกลุ่มซึ่งมีดังต่อไปนี้ -

วิธีการแบ่งพาร์ติชัน − ให้ฐานข้อมูลของ n อ็อบเจ็กต์หรือข้อมูล tuples วิธีการแบ่งพาร์ติชั่นจะประกอบ k พาร์ติชั่นของข้อมูล โดยที่แต่ละพาร์ติชั่นกำหนดคลัสเตอร์ และ k

  • แต่ละกลุ่มต้องมีอย่างน้อยหนึ่งวัตถุ

  • แต่ละอ็อบเจ็กต์ควรใช้กับกลุ่มเดียวอย่างแม่นยำ

ให้ k จำนวนพาร์ติชั่นที่จะสร้าง วิธีการแบ่งพาร์ติชั่นจะทำให้การแบ่งพาร์ติชั่นเริ่มต้น จากนั้นใช้วิธีย้ายตำแหน่งซ้ำซึ่งพยายามปรับปรุงการแบ่งพาร์ติชั่นโดยเปลี่ยนวัตถุจากกลุ่มหนึ่งไปยังอีกกลุ่มหนึ่ง

เกณฑ์ทั่วไปของการแบ่งพาร์ติชั่นที่ดีคืออ็อบเจ็กต์ในคลัสเตอร์เดียวกันนั้น "ใกล้" หรือเชื่อมโยงถึงกัน ในขณะที่ออบเจ็กต์ของคลัสเตอร์ที่ต่างกันนั้น "ห่างกันมาก" หรือแตกต่างกันมาก มีเกณฑ์อื่นๆ หลายประเภทในการพิจารณาคุณภาพของพาร์ติชัน

วิธีการแบบลำดับชั้น − วิธีการแบบลำดับชั้นจะสร้างการสลายตัวแบบลำดับชั้นของชุดออบเจ็กต์ข้อมูลที่กำหนด วิธีการแบบลำดับชั้นสามารถแบ่งได้เป็นแบบรวมหรือแบบแบ่งแยก ขึ้นอยู่กับวิธีการสร้างการสลายตัวแบบลำดับชั้น วิธีการแบบรวมกลุ่มเรียกอีกอย่างว่าแนวทาง "จากล่างขึ้นบน"

สามารถเริ่มต้นด้วยแต่ละอ็อบเจ็กต์ที่สร้างกลุ่มอิสระ โดยจะรวมออบเจ็กต์หรือกลุ่มที่อยู่ชิดกันอย่างต่อเนื่อง จนกว่ากลุ่มทั้งหมดจะรวมกันเป็นหนึ่งเดียว (ระดับบนสุดของลำดับชั้น) หรือจนกว่าเงื่อนไขการสิ้นสุดจะคงอยู่ แนวทางการแบ่งแยกเรียกอีกอย่างว่าแนวทางจากบนลงล่าง มันสามารถเริ่มต้นด้วยวัตถุทั้งหมดในคลัสเตอร์เดียวกัน ในการทำซ้ำแต่ละครั้ง คลัสเตอร์จะถูกแบ่งออกเป็นคลัสเตอร์ที่เล็กกว่า จนกระทั่งในที่สุด แต่ละอ็อบเจ็กต์จะอยู่ในคลัสเตอร์เดียว หรือจนกว่าเงื่อนไขการสิ้นสุดจะคงอยู่

วิธีการตามความหนาแน่น − วิธีการแบ่งกลุ่มบางวิธีจะจัดกลุ่มวัตถุตามระยะห่างระหว่างวัตถุ วิธีการดังกล่าวสามารถค้นพบได้เฉพาะกระจุกทรงกลมและประสบปัญหาในการค้นหากระจุกที่มีรูปร่างตามอำเภอใจ มีการสร้างวิธีการจัดกลุ่มอื่นๆ ตามแนวคิดเรื่องความหนาแน่น

DBSCAN เป็นวิธีการที่อิงตามความหนาแน่นทั่วไปซึ่งเพิ่มคลัสเตอร์ตามเกณฑ์ความหนาแน่น OPTICS เป็นวิธีการที่อิงตามความหนาแน่นซึ่งประเมินการจัดลำดับคลัสเตอร์แบบเสริมสำหรับการวิเคราะห์คลัสเตอร์แบบอัตโนมัติและเชิงโต้ตอบ

วิธีการแบบตาราง − วิธีการแบบ Grid-based quantize ช่องว่างของอ็อบเจ็กต์เป็นจำนวนจำกัดของเซลล์ซึ่งสร้างสถาปัตยกรรมกริด การดำเนินการจัดกลุ่มบางอย่างมีการใช้งานบนสถาปัตยกรรมกริด (เช่น บนพื้นที่เชิงปริมาณ)

ประโยชน์ของวิธีการนี้คือเวลาในการประมวลผลที่รวดเร็ว ซึ่งโดยทั่วไปแล้วจะไม่ขึ้นกับจำนวนของออบเจ็กต์ข้อมูล และขึ้นอยู่กับจำนวนเซลล์ในแต่ละมิติในพื้นที่ควอนไทซ์เท่านั้น STING เป็นตัวอย่างของวิธีการแบบกริด CLIQUE และ Wave-Cluster เป็นอัลกอริธึมการทำคลัสเตอร์สองแบบที่มีทั้งแบบกริดและแบบอิงความหนาแน่น

วิธีการตามแบบจำลอง − วิธีการแบบอิงโมเดลจะตั้งสมมติฐานแบบจำลองสำหรับแต่ละคลัสเตอร์และค้นหาความเหมาะสมที่สุดของเร็กคอร์ดกับโมเดลที่กำหนด อัลกอริธึมตามแบบจำลองสามารถระบุตำแหน่งของคลัสเตอร์โดยการสร้างฟังก์ชันความหนาแน่นที่สะท้อนถึงการกระจายเชิงพื้นที่ของจุดข้อมูล นอกจากนี้ยังนำไปสู่วิธีการตัดสินใจจำนวนคลัสเตอร์โดยอัตโนมัติตามสถิติมาตรฐาน โดยคำนึงถึง "สัญญาณรบกวน" หรือค่าผิดปกติ และทำให้ได้วิธีการจัดกลุ่มที่มีประสิทธิภาพ