Computer >> คอมพิวเตอร์ >  >> การเขียนโปรแกรม >> การเขียนโปรแกรม

Clustering ในเหมืองข้อมูลมีกี่ประเภท


การจัดกลุ่มมีหลายประเภทดังนี้ −

ลำดับชั้นเทียบกับบางส่วน การรับรู้ระหว่างการจัดกลุ่มหลายประเภทคือการที่ชุดของคลัสเตอร์จะซ้อนกันหรือไม่ซ้อน หรือในคำศัพท์ที่นิยม ลำดับชั้นหรือการแบ่งพาร์ติชัน การแบ่งกลุ่มแบบแบ่งพาร์ติชันคือการกระจายกลุ่มของออบเจ็กต์ข้อมูลไปยังชุดย่อยที่ไม่ทับซ้อนกัน (คลัสเตอร์) รวมถึงทุกอ็อบเจ็กต์ข้อมูลอยู่ในชุดย่อยเดียวอย่างแท้จริง

มันสามารถอนุญาตให้คลัสเตอร์มีคลัสเตอร์ย่อย ดังนั้นจึงจำเป็นต้องมีการทำคลัสเตอร์แบบลำดับชั้น ซึ่งเป็นกลุ่มของคลัสเตอร์ที่ซ้อนกันซึ่งถูกกำหนดเป็นทรี ทุกโหนด (คลัสเตอร์) ในทรี (ยกเว้นโหนดปลายสุด) คือการรวมกันของลูก (คลัสเตอร์ย่อย) และรูทของทรีคือคลัสเตอร์รวมถึงอ็อบเจ็กต์ทั้งหมด

พิเศษ vs ซ้อนทับกับ Fizzy − การจัดกลุ่มเป็นแบบเอกสิทธิ์เฉพาะบุคคล เนื่องจากสร้างแต่ละอ็อบเจ็กต์ไปยังคลัสเตอร์เดี่ยว มีตำแหน่งหลายตำแหน่งที่จุดหนึ่งสามารถอยู่ในกลุ่มที่สูงกว่าคลัสเตอร์หนึ่งได้ และสถานการณ์เหล่านี้จัดการได้ดีกว่าด้วยการจัดกลุ่มแบบไม่ผูกขาด

ในวิธีนี้ การทำคลัสเตอร์ที่ทับซ้อนกันหรือไม่ผูกขาดสามารถทำตามข้อเท็จจริงที่ว่าวัตถุสามารถอยู่ในกลุ่มที่สูงกว่าหนึ่งกลุ่ม (คลาส) ตัวอย่างเช่น บุคคลที่มหาวิทยาลัยสามารถเป็นได้ทั้งผู้สมัครที่ลงทะเบียนและเป็นลูกจ้างของมหาวิทยาลัย

ในการคลัสเตอร์ที่เป็นฟอง แต่ละอ็อบเจ็กต์นำไปใช้กับแต่ละคลัสเตอร์ที่มีน้ำหนักสมาชิกที่อยู่ระหว่าง 0 (ไม่มีการจัดหมวดหมู่) ถึง 1 (ใช้ตามหมวดหมู่) อีกนัยหนึ่ง คลัสเตอร์ถือเป็นเซตที่ฟองสบู่

สมบูรณ์กับบางส่วน − การทำคลัสเตอร์แบบสมบูรณ์จะสร้างแต่ละอ็อบเจ็กต์ไปยังคลัสเตอร์ ในขณะที่คลัสเตอร์บางส่วนไม่สร้าง สาเหตุของการทำคลัสเตอร์บางส่วนคือออบเจ็กต์บางอย่างในชุดข้อมูลไม่สามารถอยู่ในกลุ่มที่ชัดเจนได้ หลายครั้งที่วัตถุในชุดข้อมูลสามารถกำหนดสัญญาณรบกวน ค่าผิดปกติ หรือ "พื้นหลังที่ไม่น่าสนใจ" ตัวอย่างเช่น เรื่องในหนังสือพิมพ์บางเรื่องอาจมีการออกแบบร่วมกัน ซึ่งรวมถึงภาวะโลกร้อน ในขณะที่เรื่องราวต่างๆ มีความเป็นสากลหรือไม่เหมือนใคร

จึงสามารถค้นพบหัวข้อสำคัญในเรื่องราวของเดือนที่แล้ว จำเป็นต้องค้นหาเฉพาะกลุ่มเอกสารที่แทบจะไม่เชื่อมโยงกันด้วยธีมทั่วไป ในบางกรณี การรวมกลุ่มของอ็อบเจ็กต์ทั้งหมดจะได้รับ ตัวอย่างเช่น แอปพลิเคชันที่ต้องการการจัดกลุ่มเพื่อจัดระเบียบไฟล์สำหรับการเรียกดูจะต้องรับประกันว่าจะสามารถเรียกดูไฟล์ทั้งหมดได้