Computer >> คอมพิวเตอร์ >  >> การเขียนโปรแกรม >> การเขียนโปรแกรม

การวิเคราะห์คลัสเตอร์กึ่งควบคุมคืออะไร


การทำคลัสเตอร์แบบกึ่งดูแลคือวิธีการแบ่งพาร์ติชั่นข้อมูลที่ไม่มีป้ายกำกับโดยการสร้างการใช้ความรู้โดเมน โดยทั่วไปจะแสดงเป็นข้อจำกัดแบบคู่ระหว่างอินสแตนซ์หรือเป็นชุดของอินสแตนซ์ที่มีป้ายกำกับเพิ่มเติม

คุณภาพของการจัดกลุ่มแบบไม่มีผู้ดูแลสามารถปรับปรุงได้โดยใช้โครงสร้างการกำกับดูแลที่อ่อนแอ เช่น ในรูปแบบของข้อจำกัดแบบคู่ (เช่น คู่ของอ็อบเจ็กต์ที่ระบุว่าเป็นของคลัสเตอร์ที่คล้ายกันหรือต่างกัน) ขั้นตอนการจัดกลุ่มดังกล่าวซึ่งขึ้นอยู่กับความคิดเห็นของผู้ใช้หรือข้อจำกัดของคำแนะนำเรียกว่าการจัดกลุ่มแบบกึ่งดูแล

มีหลายวิธีสำหรับการจัดกลุ่มแบบกึ่งควบคุมดูแลที่สามารถแบ่งออกเป็นสองประเภทดังต่อไปนี้ −

การจัดคลัสเตอร์กึ่งควบคุมตามข้อจำกัด − สามารถใช้ได้ตามป้ายกำกับหรือข้อจำกัดที่ผู้ใช้ให้มาเพื่อสนับสนุนอัลกอริทึมในการแบ่งพาร์ติชั่นข้อมูลที่เหมาะสมกว่า ซึ่งรวมถึงการแก้ไขฟังก์ชันวัตถุประสงค์ขึ้นอยู่กับข้อจำกัดหรือการเริ่มต้นและจำกัดกระบวนการจัดกลุ่มโดยขึ้นอยู่กับวัตถุที่ติดป้ายกำกับ

การจัดคลัสเตอร์กึ่งควบคุมตามระยะทาง − สามารถใช้เพื่อใช้การวัดระยะทางแบบปรับได้ที่ได้รับการฝึกฝนเพื่อให้เป็นไปตามฉลากหรือข้อจำกัดในข้อมูลภายใต้การดูแล มีการใช้การวัดระยะทางแบบปรับได้หลายแบบ รวมถึงระยะทางในการแก้ไขสตริงที่ฝึกโดยใช้ Expectation-Maximization (EM) และระยะทางแบบยุคลิดที่เปลี่ยนโดยอัลกอริทึมระยะทางที่สั้นที่สุด

วิธีการจัดกลุ่มที่น่าสนใจที่เรียกว่า CLTree (CLustering ตามการตัดสินใจTREEs) รวมการจัดกลุ่มแบบไม่มีผู้ดูแลเข้ากับแนวคิดการจัดประเภทภายใต้การดูแล เป็นตัวอย่างของการทำคลัสเตอร์กึ่งควบคุมตามข้อจำกัด เปลี่ยนงานการจัดกลุ่มเป็นงานการจัดประเภทโดยพิจารณาชุดของคะแนนที่จะจัดกลุ่มว่าเป็นของชั้นเรียนหนึ่ง ติดป้ายกำกับว่า "Y" และแทรกชุดของ "จุดที่ไม่มีอยู่" ที่กระจายอย่างสม่ำเสมอด้วยป้ายกำกับหลายชั้น " น.”

ปัญหาของการแบ่งพื้นที่ข้อมูลออกเป็นพื้นที่ข้อมูล (หนาแน่น) และพื้นที่ว่าง (เบาบาง) สามารถเปลี่ยนเป็นปัญหาการจำแนกประเภทได้ คะแนนเหล่านี้ถือเป็นชุดของคะแนน “Y” มันแสดงให้เห็นการเพิ่มคอลเลกชันของคะแนน “N” ที่กระจายอย่างสม่ำเสมอ ซึ่งกำหนดโดยจุด “o”

ปัญหาการจัดกลุ่มเดิมจึงเปลี่ยนเป็นปัญหาการจำแนกประเภท ซึ่งใช้การออกแบบที่แยกจุด "Y" และ "N" วิธีการเหนี่ยวนำแผนผังการตัดสินใจสามารถใช้เพื่อแบ่งพื้นที่สองมิติได้ รู้จักคลัสเตอร์ 2 กลุ่ม ซึ่งมาจากจุด "Y" เท่านั้น

สามารถใช้เพื่อแทรกจุด "N" จำนวนมากลงในข้อมูลเดิม ทำให้เกิดค่าใช้จ่ายที่ไม่จำเป็นในการคำนวณ ยิ่งไปกว่านั้น ไม่น่าเป็นไปได้ที่บางจุดที่เพิ่มเข้ามาจะถูกกระจายอย่างเท่าเทียมกันอย่างแท้จริงในช่องว่างมิติที่สูงมาก เนื่องจากอาจต้องมีจุดที่เป็นเลขชี้กำลัง