K-Means
K-means clustering เป็นอัลกอริธึมการแบ่งพาร์ติชัน K-means สร้างข้อมูลใหม่ในชุดข้อมูลให้กับกลุ่มใหม่ที่สร้างขึ้นเพียงกลุ่มเดียว ข้อมูลหรือจุดข้อมูลถูกกำหนดให้กับคลัสเตอร์ที่อยู่ติดกันโดยใช้การวัดระยะทางหรือความคล้ายคลึงกัน
ใน k-mean วัตถุจะถูกสร้างขึ้นที่จุดศูนย์กลางที่ใกล้ที่สุด มันสามารถกำหนดข้อจำกัดที่ไม่สามารถเชื่อมโยงได้ และแก้ไขกระบวนการกำหนดศูนย์ใน k-mean เป็นการมอบหมายศูนย์ที่ใกล้เคียงที่สุด
เมื่อวัตถุถูกสร้างขึ้นเพื่อจัดกึ่งกลางตามลำดับ ในแต่ละขั้นตอน วัตถุสามารถจัดเตรียมการมอบหมายได้จนถึงขณะนี้ ไม่ทำให้ข้อจำกัดบางข้อไม่สามารถเชื่อมโยงไม่เป็นระเบียบ ออบเจ็กต์จะถูกสร้างขึ้นที่ศูนย์กลางที่ใกล้ที่สุด ดังนั้นงานจึงเป็นไปตามข้อจำกัดบางอย่างที่ไม่สามารถเชื่อมโยงได้
ดีบีเอสแคน
DBSCAN แสดงถึงการจัดคลัสเตอร์เชิงพื้นที่ของแอปพลิเคชันที่มีเสียงรบกวนตามความหนาแน่น เป็นอัลกอริทึมการจัดกลุ่มตามความหนาแน่น อัลกอริธึมช่วยปรับปรุงภูมิภาคที่มีความหนาแน่นสูงเพียงพอในกลุ่มและค้นพบคลัสเตอร์ของโครงสร้างตามอำเภอใจในฐานข้อมูลเชิงพื้นที่พร้อมสัญญาณรบกวน มันกำหนดคลัสเตอร์เป็นชุดสูงสุดของจุดเชื่อมต่อความหนาแน่น
คลัสเตอร์แบบอิงความหนาแน่นคือชุดของออบเจ็กต์ที่เชื่อมต่อกับความหนาแน่นซึ่งสูงสุดเกี่ยวกับความสามารถในการเข้าถึงความหนาแน่น แต่ละอ็อบเจ็กต์ที่ไม่มีอยู่ในบางคลัสเตอร์จะถือเป็นสัญญาณรบกวน
DBSCAN ตรวจสอบคลัสเตอร์โดยการตรวจสอบ ε-neighborhood ของทุกจุดในฐานข้อมูล หาก ε-บริเวณใกล้เคียงของจุด p มีมากกว่า MinPts คลัสเตอร์ใหม่ที่มี p เป็นองค์ประกอบหลักจะถูกสร้างขึ้น DBSCAN รวบรวมวัตถุที่เข้าถึงความหนาแน่นได้อย่างแม่นยำซ้ำแล้วซ้ำอีกจากองค์ประกอบที่จำเป็นเหล่านี้ ซึ่งอาจรวมถึงการรวมกลุ่มของคลัสเตอร์ที่เข้าถึงความหนาแน่นได้ไม่กี่แห่ง กระบวนการนี้จะกำจัดเมื่อไม่สามารถเพิ่มจุดใหม่ลงในคลัสเตอร์ได้
เรามาดูการเปรียบเทียบระหว่าง K-Means และ DBSCAN
K-Means | ดีบีเอสแคน |
---|---|
K-หมายถึงโดยทั่วไปจะจัดกลุ่มวัตถุทั้งหมด | DBSCAN ละทิ้งวัตถุที่กำหนดเป็นสัญญาณรบกวน |
K-means ต้องการแนวคิดแบบคลัสเตอร์ตามต้นแบบ | DBSCAN ต้องการแนวคิดที่อิงตามความหนาแน่น |
K-mean มีปัญหากับคลัสเตอร์ที่ไม่ใช่ทรงกลมและคลัสเตอร์หลายขนาด | DBSCAN ใช้เพื่อจัดการคลัสเตอร์ที่มีขนาดและโครงสร้างหลายขนาด และไม่ได้รับอิทธิพลอย่างมากจากสัญญาณรบกวนหรือค่าผิดปกติ |
ค่า K ใช้สำหรับข้อมูลที่มีเซนทรอยด์ที่ชัดเจน รวมทั้งค่ากลางหรือค่ามัธยฐาน | DBSCAN ต้องการให้คำจำกัดความของความหนาแน่น ซึ่งขึ้นอยู่กับแนวคิดของความหนาแน่นแบบยุคลิดดั้งเดิมนั้นมีความสำคัญสำหรับข้อมูล |
K-mean สามารถใช้เพื่อแยกข้อมูลที่มีมิติข้อมูลสูง รวมทั้งข้อมูลไฟล์ได้ | โดยทั่วไป DBSCAN ใช้งานไม่ดีสำหรับข้อมูลดังกล่าว เนื่องจากคำจำกัดความของความหนาแน่นแบบยุคลิดดั้งเดิมใช้ไม่ได้ผลกับข้อมูลที่มีมิติสูง |
อัลกอริธึม K-mean พื้นฐานคล้ายกับวิธีการจัดกลุ่มทางสถิติ (แบบจำลองผสม) ที่พิจารณาว่าคลัสเตอร์ทั้งหมดมาจากการแจกแจงแบบเกาส์เซียนทรงกลมที่มีหลายวิธี แต่มีเมทริกซ์ความแปรปรวนร่วมเท่ากัน | DIISCAN ไม่ได้สร้างสมมติฐานเกี่ยวกับการกระจายเรคคอร์ด |