Computer >> คอมพิวเตอร์ >  >> การเขียนโปรแกรม >> การเขียนโปรแกรม

คลัสเตอร์ในการทำเหมืองข้อมูลมีกี่ประเภท


การวิเคราะห์คลัสเตอร์ใช้เพื่อสร้างกลุ่มหรือคลัสเตอร์ของเร็กคอร์ดเดียวกัน ขึ้นอยู่กับการวัดต่างๆ ที่ทำกับเร็กคอร์ดเหล่านี้ สามารถกำหนดคลัสเตอร์ในลักษณะที่เป็นประโยชน์ต่อวัตถุประสงค์ของการวิเคราะห์ ข้อมูลนี้ถูกใช้ในหลายด้าน เช่น ดาราศาสตร์ โบราณคดี การแพทย์ เคมี การศึกษา จิตวิทยา ภาษาศาสตร์ และสังคมวิทยา

คลัสเตอร์มีหลายประเภทดังนี้ −

แยกจากกัน คลัสเตอร์คือกลุ่มของอ็อบเจ็กต์ที่ทุกอิลิเมนต์อยู่ใกล้กับองค์ประกอบอื่นๆ ในคลัสเตอร์มากกว่าบางอ็อบเจ็กต์ที่ไม่ได้อยู่ในคลัสเตอร์ บางครั้งเกณฑ์สามารถกำหนดว่าอ็อบเจ็กต์ทั้งหมดในคลัสเตอร์ควรอยู่ใกล้กัน (หรือคล้ายกัน) อย่างเพียงพอ คำอธิบายของคลัสเตอร์นี้จำเป็นต่อเมื่อข้อมูลมีคลัสเตอร์ธรรมชาติที่อยู่ห่างไกลจากกันโดยสิ้นเชิง

ตามต้นแบบ − คลัสเตอร์คือกลุ่มของอ็อบเจ็กต์ที่แต่ละอ็อบเจ็กต์อยู่ใกล้กับต้นแบบที่เป็นตัวแทนของคลัสเตอร์มากกว่าต้นแบบของหลายคลัสเตอร์ สำหรับข้อมูลที่มีคุณสมบัติต่อเนื่อง ต้นแบบของคลัสเตอร์จะเป็นเซนทรอยด์ เช่น ค่าเฉลี่ย (ค่าเฉลี่ย) ของจุดต่างๆ ในคลัสเตอร์ เมื่อเซนทรอยด์ไม่สำคัญ รวมถึงเมื่อบันทึกมีคุณสมบัติตามหมวดหมู่ ต้นแบบจะเป็นตัวกลาง เช่น จุดทั่วไปของคลัสเตอร์

ตามกราฟ − หากข้อมูลเป็นเรื่องปกติเหมือนกราฟ โดยที่โหนดเป็นวัตถุ และลิงก์กำหนดการเชื่อมต่อระหว่างวัตถุ คลัสเตอร์สามารถแสดงเป็นองค์ประกอบที่เชื่อมต่อได้ นั่นคือ ชุดของอ็อบเจ็กต์ที่เชื่อมโยงถึงกัน แต่ไม่มีการเชื่อมต่อกับอ็อบเจ็กต์ที่อยู่ไกลออกไปในกลุ่ม

อินสแตนซ์ที่สำคัญของคลัสเตอร์แบบกราฟคือคลัสเตอร์ที่อิงตามความต่อเนื่องกัน โดยที่ออบเจ็กต์สองรายการจะเชื่อมโยงกันก็ต่อเมื่ออยู่ภายในระยะห่างที่กำหนดซึ่งกันและกัน ซึ่งบ่งชี้ว่าแต่ละอ็อบเจ็กต์ในคลัสเตอร์ที่ยึดตามความต่อเนื่องกันนั้นอยู่ใกล้กับออบเจ็กต์หลายรายการในคลัสเตอร์มากกว่าบางจุดในหลายคลัสเตอร์

วิธีการตามความหนาแน่น − เทคนิคการแบ่งกลุ่มวัตถุบางอย่างขึ้นอยู่กับระยะห่างระหว่างวัตถุ วิธีการดังกล่าวสามารถค้นพบได้เฉพาะกระจุกทรงกลมและประสบปัญหาในการค้นหากระจุกที่มีรูปร่างตามอำเภอใจ มีการสร้างวิธีการจัดกลุ่มหลายวิธีขึ้นอยู่กับแนวคิดของความหนาแน่น

DBSCAN เป็นวิธีการที่ใช้ความหนาแน่นเป็นประจำซึ่งเพิ่มคลัสเตอร์ตามเกณฑ์ความหนาแน่น OPTICS เป็นวิธีการที่อิงตามความหนาแน่นซึ่งคำนวณการจัดลำดับคลัสเตอร์แบบขยายสำหรับการวิเคราะห์คลัสเตอร์อัตโนมัติและร่วมกัน

วิธีการแบบตาราง − วิธีการแบบกริดจะกำหนดปริมาณพื้นที่วัตถุให้เป็นเซลล์หลายเซลล์ที่มีขอบเขตจำกัด ซึ่งสร้างโครงสร้างกริด บริการจัดกลุ่มหลายอย่างถูกนำมาใช้ในโครงสร้างกริด (เช่น บนพื้นที่เชิงปริมาณ)

ข้อดีของวิธีนี้คือเวลาในการประมวลผลที่รวดเร็วซึ่งมักไม่ขึ้นกับออบเจ็กต์ข้อมูลหลายรายการและอิงจากหลายเซลล์ในแต่ละมิติในพื้นที่ควอนไทซ์เท่านั้น