อะไรคือความแตกต่างระหว่าง K-Means และ DBSCAN?

K-Means

K-means clustering เป็นอัลกอริธึมการแบ่งพาร์ติชัน K-means สร้างข้อมูลใหม่ในชุดข้อมูลให้กับกลุ่มใหม่ที่สร้างขึ้นเพียงกลุ่มเดียว ข้อมูลหรือจุดข้อมูลถูกกำหนดให้กับคลัสเตอร์ที่อยู่ติดกันโดยใช้การวัดระยะทางหรือความคล้ายคลึงกัน

ใน k-mean วัตถุจะถูกสร้างขึ้นที่จุดศูนย์กลางที่ใกล้ที่สุด มันสามารถกำหนดข้อจำกัดที่ไม่สามารถเชื่อมโยงได้ และแก้ไขกระบวนการกำหนดศูนย์ใน k-mean เป็นการมอบหมายศูนย์ที่ใกล้เคียงที่สุด

เมื่อวัตถุถูกสร้างขึ้นเพื่อจัดกึ่งกลางตามลำดับ ในแต่ละขั้นตอน วัตถุสามารถจัดเตรียมการมอบหมายได้จนถึงขณะนี้ ไม่ทำให้ข้อจำกัดบางข้อไม่สามารถเชื่อมโยงไม่เป็นระเบียบ ออบเจ็กต์จะถูกสร้างขึ้นที่ศูนย์กลางที่ใกล้ที่สุด ดังนั้นงานจึงเป็นไปตามข้อจำกัดบางอย่างที่ไม่สามารถเชื่อมโยงได้

ดีบีเอสแคน

DBSCAN แสดงถึงการจัดคลัสเตอร์เชิงพื้นที่ของแอปพลิเคชันที่มีเสียงรบกวนตามความหนาแน่น เป็นอัลกอริทึมการจัดกลุ่มตามความหนาแน่น อัลกอริธึมช่วยปรับปรุงภูมิภาคที่มีความหนาแน่นสูงเพียงพอในกลุ่มและค้นพบคลัสเตอร์ของโครงสร้างตามอำเภอใจในฐานข้อมูลเชิงพื้นที่พร้อมสัญญาณรบกวน มันกำหนดคลัสเตอร์เป็นชุดสูงสุดของจุดเชื่อมต่อความหนาแน่น

คลัสเตอร์แบบอิงความหนาแน่นคือชุดของออบเจ็กต์ที่เชื่อมต่อกับความหนาแน่นซึ่งสูงสุดเกี่ยวกับความสามารถในการเข้าถึงความหนาแน่น แต่ละอ็อบเจ็กต์ที่ไม่มีอยู่ในบางคลัสเตอร์จะถือเป็นสัญญาณรบกวน

DBSCAN ตรวจสอบคลัสเตอร์โดยการตรวจสอบ ε-neighborhood ของทุกจุดในฐานข้อมูล หาก ε-บริเวณใกล้เคียงของจุด p มีมากกว่า MinPts คลัสเตอร์ใหม่ที่มี p เป็นองค์ประกอบหลักจะถูกสร้างขึ้น DBSCAN รวบรวมวัตถุที่เข้าถึงความหนาแน่นได้อย่างแม่นยำซ้ำแล้วซ้ำอีกจากองค์ประกอบที่จำเป็นเหล่านี้ ซึ่งอาจรวมถึงการรวมกลุ่มของคลัสเตอร์ที่เข้าถึงความหนาแน่นได้ไม่กี่แห่ง กระบวนการนี้จะกำจัดเมื่อไม่สามารถเพิ่มจุดใหม่ลงในคลัสเตอร์ได้

เรามาดูการเปรียบเทียบระหว่าง K-Means และ DBSCAN

K-Means	ดีบีเอสแคน
K-หมายถึงโดยทั่วไปจะจัดกลุ่มวัตถุทั้งหมด	DBSCAN ละทิ้งวัตถุที่กำหนดเป็นสัญญาณรบกวน
K-means ต้องการแนวคิดแบบคลัสเตอร์ตามต้นแบบ	DBSCAN ต้องการแนวคิดที่อิงตามความหนาแน่น
K-mean มีปัญหากับคลัสเตอร์ที่ไม่ใช่ทรงกลมและคลัสเตอร์หลายขนาด	DBSCAN ใช้เพื่อจัดการคลัสเตอร์ที่มีขนาดและโครงสร้างหลายขนาด และไม่ได้รับอิทธิพลอย่างมากจากสัญญาณรบกวนหรือค่าผิดปกติ
ค่า K ใช้สำหรับข้อมูลที่มีเซนทรอยด์ที่ชัดเจน รวมทั้งค่ากลางหรือค่ามัธยฐาน	DBSCAN ต้องการให้คำจำกัดความของความหนาแน่น ซึ่งขึ้นอยู่กับแนวคิดของความหนาแน่นแบบยุคลิดดั้งเดิมนั้นมีความสำคัญสำหรับข้อมูล
K-mean สามารถใช้เพื่อแยกข้อมูลที่มีมิติข้อมูลสูง รวมทั้งข้อมูลไฟล์ได้	โดยทั่วไป DBSCAN ใช้งานไม่ดีสำหรับข้อมูลดังกล่าว เนื่องจากคำจำกัดความของความหนาแน่นแบบยุคลิดดั้งเดิมใช้ไม่ได้ผลกับข้อมูลที่มีมิติสูง
อัลกอริธึม K-mean พื้นฐานคล้ายกับวิธีการจัดกลุ่มทางสถิติ (แบบจำลองผสม) ที่พิจารณาว่าคลัสเตอร์ทั้งหมดมาจากการแจกแจงแบบเกาส์เซียนทรงกลมที่มีหลายวิธี แต่มีเมทริกซ์ความแปรปรวนร่วมเท่ากัน	DIISCAN ไม่ได้สร้างสมมติฐานเกี่ยวกับการกระจายเรคคอร์ด