กระบวนการรวมชุดของวัตถุทางกายภาพหรือนามธรรมเข้าในคลาสของวัตถุเดียวกันนั้นเรียกว่าการจัดกลุ่ม คลัสเตอร์คือชุดของออบเจ็กต์ข้อมูลที่เหมือนกันภายในคลัสเตอร์เดียวกันและแตกต่างจากออบเจ็กต์ในคลัสเตอร์อื่น คลัสเตอร์ของออบเจ็กต์ข้อมูลสามารถพิจารณารวมกันเป็นกลุ่มเดียวในหลายแอปพลิเคชัน การวิเคราะห์คลัสเตอร์เป็นกิจกรรมที่สำคัญของมนุษย์
การวิเคราะห์คลัสเตอร์ใช้เพื่อสร้างกลุ่มหรือคลัสเตอร์ของเร็กคอร์ดเดียวกัน ขึ้นอยู่กับการวัดต่างๆ ที่ทำกับเร็กคอร์ดเหล่านี้ การออกแบบที่สำคัญคือการกำหนดคลัสเตอร์ในลักษณะที่สามารถเป็นประโยชน์สำหรับวัตถุประสงค์ของการวิเคราะห์ ข้อมูลนี้ถูกใช้ในหลายด้าน เช่น ดาราศาสตร์ โบราณคดี การแพทย์ เคมี การศึกษา จิตวิทยา ภาษาศาสตร์ และสังคมวิทยา
มีองค์ประกอบต่าง ๆ ของคลัสเตอร์ซึ่งมีดังนี้ -
การกระจายข้อมูล เทคนิคการจัดกลุ่มบางประเภทพิจารณาการกระจายข้อมูลประเภทใดประเภทหนึ่ง ยิ่งไปกว่านั้น พวกเขาสามารถพิจารณาว่าข้อมูลสามารถสร้างแบบจำลองว่าเกิดจากการแจกแจงร่วมกัน โดยที่แต่ละคลัสเตอร์สัมพันธ์กับการแจกแจง
รูปร่าง − กระจุกบางกระจุกมีรูปทรงที่เป็นระบบ เช่น สี่เหลี่ยมจัตุรัสหรือทรงกลม แต่ตามปกติ กระจุกสามารถมีรูปร่างตามอำเภอใจได้ เทคนิคต่างๆ ซึ่งรวมถึง DBSCAN และลิงก์เดี่ยวสามารถจัดการคลัสเตอร์ที่มีรูปร่างตามอำเภอใจได้ แต่รูปแบบตามต้นแบบและเทคนิคแบบลำดับชั้นบางอย่าง ซึ่งรวมถึงลิงก์ทั้งหมดและค่าเฉลี่ยของกลุ่ม จะไม่สามารถทำได้
ขนาดต่างๆ − วิธีการจัดกลุ่มหลายวิธี รวมถึงค่าเฉลี่ย K ทำงานได้ไม่ดีเมื่อคลัสเตอร์มีหลายขนาด
ความหนาแน่นต่างกัน − กลุ่มที่มีความหนาแน่นต่างกันมากอาจทำให้เกิดปัญหาสำหรับวิธีการต่างๆ รวมทั้ง DBSCAN และ K-mean
คลัสเตอร์ที่แยกไม่ดี − เมื่อคลัสเตอร์แตะหรือทับซ้อนกัน วิธีการทำคลัสเตอร์หลายๆ วิธีจะรวมคลัสเตอร์ที่ต้องแยกจากกัน แม้แต่เทคนิคที่ค้นพบคลัสเตอร์ที่แตกต่างกันโดยพลการก็สร้างจุดไปยังคลัสเตอร์หนึ่งหรืออีกคลัสเตอร์หนึ่ง
ความสัมพันธ์ระหว่างกลุ่ม − ในเทคนิคการทำคลัสเตอร์ส่วนใหญ่ ไม่มีการพิจารณาอย่างชัดเจนถึงการเชื่อมโยงระหว่างคลัสเตอร์ รวมถึงตำแหน่งที่สัมพันธ์กัน แผนที่การจัดระเบียบตนเองเป็นวิธีการจัดกลุ่มที่ปฏิบัติต่อความสัมพันธ์ระหว่างกลุ่มโดยตรงในระหว่างขั้นตอนการจัดกลุ่ม นอกจากนี้ การกำหนดจุดไปยังคลัสเตอร์หนึ่งมีอิทธิพลต่อคำจำกัดความของคลัสเตอร์ใกล้เคียง
คลัสเตอร์ซับสเปซ − คลัสเตอร์สามารถมีได้เฉพาะในเซตย่อยของมิติ (แอตทริบิวต์) และคลัสเตอร์ที่ตัดสินใจโดยใช้มิติข้อมูลชุดเดียวอาจแตกต่างจากคลัสเตอร์ที่ตัดสินใจโดยใช้ชุดอื่น
ในขณะที่ปัญหานี้สามารถเพิ่มขึ้นได้ด้วยสองมิติเพียงสองมิติ แต่จะรุนแรงขึ้นเมื่อมิติมีการปรับปรุง เนื่องจากชุดย่อยของมิติที่เป็นไปได้หลายชุดเป็นเลขชี้กำลังในจำนวนทั้งหมดของมิติข้อมูล เนื่องจากใช้ไม่ได้กับการดูคลัสเตอร์ในชุดย่อยที่เป็นไปได้ทั้งหมด เว้นแต่มิติข้อมูลหลายรายการจะค่อนข้างต่ำ