WaveCluster เป็นอัลกอริธึมการทำคลัสเตอร์แบบหลายความละเอียดที่สรุปลำดับแรกโดยใช้สถาปัตยกรรมกริดแบบหลายมิติบนพื้นที่ข้อมูล สามารถใช้การแปลงเวฟเล็ตเพื่อเปลี่ยนพื้นที่คุณลักษณะเดิม ค้นหาโดเมนหนาแน่นในพื้นที่ที่แปลงแล้ว
ในวิธีนี้ เซลล์กริดแต่ละเซลล์จะสรุปข้อมูลของกลุ่มจุดที่แมปเข้าไปในเซลล์ ข้อมูลสรุปนี้โดยทั่วไปจะพอดีกับหน่วยความจำหลักเพื่อใช้โดยการแปลงเวฟเล็ตหลายความละเอียดและการวิเคราะห์คลัสเตอร์ที่ตามมา
การแปลงเวฟเล็ตเป็นวิธีการประมวลผลสัญญาณที่แยกสัญญาณออกเป็นหลายย่านความถี่ย่อย แบบจำลองเวฟเล็ตสามารถใช้กับสัญญาณ d มิติได้โดยใช้การแปลงเวฟเล็ตหนึ่งมิติ d ครั้ง ในการใช้การแปลงเวฟเล็ต ข้อมูลจะถูกเปลี่ยนเพื่อรักษาระยะห่างสัมพัทธ์ระหว่างวัตถุที่ความละเอียดหลายระดับ ซึ่งช่วยให้คลัสเตอร์ธรรมชาติในข้อมูลสามารถตรวจพบได้มากขึ้น คลัสเตอร์สามารถรับรู้ได้โดยการค้นหาพื้นที่หนาแน่นในโดเมนใหม่
ข้อดีของการแปลงเวฟเล็ตมีดังนี้ -
มีการจัดกลุ่มแบบไม่มีผู้ดูแล:ต้องใช้ตัวกรองรูปหมวกที่เน้นบริเวณที่จุดคลัสเตอร์ ขณะที่ระงับข้อมูลที่อ่อนแอกว่านอกขอบเขตคลัสเตอร์
-
มีการจัดคลัสเตอร์แบบไม่มีผู้ดูแล − ต้องใช้ตัวกรองรูปหมวกที่เน้นบริเวณที่คลัสเตอร์ของคะแนน ขณะที่ระงับข้อมูลที่อ่อนแอกว่าที่อยู่นอกขอบเขตของคลัสเตอร์
ดังนั้น บริเวณที่หนาแน่นในพื้นที่คุณลักษณะเริ่มต้นจึงทำหน้าที่เป็นตัวดึงดูดสำหรับจุดที่อยู่ติดกันและเป็นตัวยับยั้งจุดที่อยู่ห่างออกไป สิ่งนี้กำหนดว่าคลัสเตอร์ในข้อมูลมีความโดดเด่นโดยอัตโนมัติและ "ชัดเจน" บริเวณรอบ ๆ ดังนั้น ประโยชน์อีกประการหนึ่งคือการแปลงเวฟเล็ตอาจส่งผลให้มีการกำจัดค่าผิดปกติออกไปโดยอัตโนมัติ
-
คุณลักษณะหลายความละเอียดของการแปลงเวฟเล็ตสามารถรองรับการตรวจจับคลัสเตอร์ได้อย่างแม่นยำหลายระดับ
-
การจัดกลุ่มแบบอิงเวฟเล็ตนั้นรวดเร็วมาก โดยมีความซับซ้อนในการคำนวณเป็น O (n) โดยที่ n คือจำนวนออบเจ็กต์ในฐานข้อมูล การใช้งานอัลกอริธึมสามารถสร้างแบบขนานได้
-
WaveCluster เป็นอัลกอริธึมแบบกริดและแบบอิงความหนาแน่น สอดคล้องกับข้อกำหนดหลายประการของอัลกอริธึมการจัดกลุ่มที่ดี − จัดการชุดข้อมูลขนาดใหญ่อย่างมีประสิทธิภาพ ค้นหาคลัสเตอร์ที่มีรูปร่างตามอำเภอใจ จัดการค่าผิดปกติได้สำเร็จ ไม่คำนึงถึงลำดับของอินพุต และไม่ต้องการคำจำกัดความของพารามิเตอร์อินพุตรวมถึงจำนวน คลัสเตอร์หรือรัศมีย่านใกล้เคียง
ในการศึกษาเบื้องต้นพบว่า WaveCluster มีประสิทธิภาพเหนือกว่า BIRCH, CLARANS และ DBSCAN ทั้งในด้านประสิทธิภาพและคุณภาพการจัดกลุ่ม การศึกษายังค้นพบ WaveCluster ที่สามารถจัดการข้อมูลได้ถึง 20 มิติ