DENCLUE คืออะไร?

การทำคลัสเตอร์เป็นแนวทางการทำเหมืองข้อมูลที่สำคัญสำหรับการค้นพบความรู้ การจัดกลุ่มเป็นวิธีการวิเคราะห์ข้อมูลเชิงสำรวจที่จัดหมวดหมู่ออบเจ็กต์ข้อมูลหลายรายการให้อยู่ในกลุ่มเดียวกัน เช่น คลัสเตอร์

DENCLUE แสดงถึงการทำคลัสเตอร์ตามความหนาแน่น เป็นวิธีการจัดกลุ่มขึ้นอยู่กับกลุ่มของฟังก์ชันการกระจายความหนาแน่น อัลกอริทึม DENCLUE ใช้โมเดลคลัสเตอร์ขึ้นอยู่กับการประเมินความหนาแน่นของเคอร์เนล คลัสเตอร์แสดงด้วยฟังก์ชันความหนาแน่นสูงสุดที่คาดการณ์ไว้ในพื้นที่

DENCLUE ไม่ทำงานบนเรกคอร์ดที่มีการกระจายแบบสม่ำเสมอ ในพื้นที่มิติสูง ข้อมูลจะดูเหมือนกระจายอย่างสม่ำเสมอเพราะคำสาปของมิติ ดังนั้น DENCLUDE จึงใช้งานไม่ได้กับเร็กคอร์ดที่มีมิติสูงโดยทั่วไป

วิธีการนี้สร้างขึ้นจากแนวคิดดังต่อไปนี้ -

อิทธิพลของจุดข้อมูลแต่ละจุดสามารถสร้างแบบจำลองอย่างเป็นทางการได้โดยใช้ฟังก์ชันทางคณิตศาสตร์ที่เรียกว่าฟังก์ชันอิทธิพล ซึ่งอธิบายผลกระทบของจุดข้อมูลภายในพื้นที่ใกล้เคียง
ความหนาแน่นที่สมบูรณ์ของพื้นที่ข้อมูลสามารถจำลองการวิเคราะห์เป็นผลรวมของฟังก์ชันอิทธิพลที่ใช้กับจุดข้อมูลบางจุด
คลัสเตอร์สามารถกำหนดเป็นตัวเลขได้โดยการระบุตัวดึงดูดความหนาแน่น โดยที่ตัวดึงดูดความหนาแน่นเป็นค่าสูงสุดของฟังก์ชันความหนาแน่นที่สมบูรณ์

ให้ x และ y เป็นวัตถุหรือจุดใน f^d , พื้นที่ป้อนข้อมูลมิติ d ฟังก์ชันอิทธิพลของวัตถุข้อมูล y บน x คือฟังก์ชัน $\mathrm{f_B^y\colon f^{d}\rightarrow R_0^+}$ ซึ่งกำหนดไว้ในแง่ของฟังก์ชันอิทธิพลพื้นฐาน f_B :

$$\mathrm {f_B^y(X)=f_{B}(X,Y)}$$

สิ่งนี้สะท้อนผลกระทบของ y ต่อ x โดยหลักการแล้ว ฟังก์ชันอิทธิพลสามารถเป็นฟังก์ชันตามอำเภอใจที่สามารถกำหนดได้โดยระยะห่างระหว่างวัตถุสองชิ้นในบริเวณใกล้เคียง ฟังก์ชันระยะทาง d(x, y) จะต้องสะท้อนกลับและสมมาตร รวมถึงฟังก์ชันระยะทางแบบยุคลิดด้วย

โดยทั่วไปจะใช้ในการคำนวณฟังก์ชันอิทธิพลของคลื่นสี่เหลี่ยม

$$\mathrm{f_{square}(X,Y)=\begin{Bmatrix}0 \:\:\:\:\:\:\:\:\:\:\:\mathrm{if\:d (x, y)> \sigma}\\1\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\mathrm{มิฉะนั้น }\end{Bmatrix}}$$

หรือฟังก์ชันอิทธิพลเกาส์เซียน

$$\mathrm{f_{Gauss}(x, y)=e-\frac{d(x, y)^2}{2{\sigma}^2}}$$

ข้อได้เปรียบของ DENCLUE

มีข้อดีหลายประการของ DENCLUE ซึ่งมีดังนี้ -

มีพื้นฐานตัวเลขที่มั่นคงและสรุปวิธีการจัดกลุ่มได้หลายวิธี เช่น การแบ่งพาร์ติชัน วิธีการแบบลำดับชั้น และแบบอิงความหนาแน่น
มีคุณสมบัติการจัดกลุ่มที่ดีสำหรับชุดข้อมูลที่มีสัญญาณรบกวนจำนวนมาก
ช่วยให้สามารถอธิบายตัวเลขขนาดเล็กของกลุ่มที่มีรูปร่างตามอำเภอใจในชุดข้อมูลที่มีมิติสูง
ใช้เซลล์กริด แต่จะเก็บเฉพาะข้อมูลเกี่ยวกับเซลล์กริดที่มีจุดข้อมูลจริงๆ มันจัดการเซลล์เหล่านี้ในโครงสร้างการเข้าถึงแบบต้นไม้ และเร็วกว่าอัลกอริธึมที่มีอิทธิพลบางอย่าง เช่น DBSCAN อย่างมาก
วิธีการเหล่านี้ต้องการการเลือกพารามิเตอร์ความหนาแน่น σ และขีดจำกัดสัญญาณรบกวน ξ อย่างระมัดระวัง เนื่องจากการเลือกพารามิเตอร์ดังกล่าวอาจส่งผลต่อคุณภาพของผลลัพธ์การจัดกลุ่มอย่างมีนัยสำคัญ