Computer >> คอมพิวเตอร์ >  >> การเขียนโปรแกรม >> การเขียนโปรแกรม

การทำคลัสเตอร์หลายระดับคืออะไร?


Multi-relational clustering คือเฟสของการแบ่งพาร์ติชันออบเจ็กต์ข้อมูลออกเป็นกลุ่มของคลัสเตอร์ขึ้นอยู่กับความคล้ายคลึงกัน โดยใช้ข้อมูลในหลายความสัมพันธ์ CrossClus แสดงถึงการทำคลัสเตอร์ข้ามสัมพันธ์พร้อมคำแนะนำผู้ใช้ เป็นอัลกอริทึมสำหรับการทำคลัสเตอร์แบบหลายความสัมพันธ์ที่วิเคราะห์วิธีใช้คำแนะนำผู้ใช้ในการจัดกลุ่มและการเผยแพร่ tuple ID เพื่อป้องกันการรวมทางกายภาพ

ความท้าทายหลักในการจัดกลุ่มแบบพหุความสัมพันธ์คือมีหลายแอตทริบิวต์ในความสัมพันธ์แบบพหุความสัมพันธ์ และโดยทั่วไปมีเพียงส่วนเล็กๆ เท่านั้นที่เกี่ยวข้องกับงานการจัดกลุ่มที่แน่นอน

โดยจะจัดกลุ่มนักเรียน คุณลักษณะครอบคลุมองค์ประกอบต่างๆ ของข้อมูล รวมถึงหลักสูตรที่นักศึกษาทำ สิ่งพิมพ์ของนักศึกษา ที่ปรึกษาและทีมวิจัยของนักศึกษา เป็นต้น

ผู้ใช้มักสนใจจัดกลุ่มนักเรียนโดยใช้องค์ประกอบเฉพาะของข้อมูล (เช่น การจัดกลุ่มนักเรียนตามพื้นที่การวิจัย) ผู้ใช้สามารถเข้าใจแอปพลิเคชันที่จำเป็นและความหมายของข้อมูลได้ดีขึ้น ดังนั้น คำแนะนำของผู้ใช้ในรูปแบบของข้อความค้นหาง่ายๆ สามารถนำมาใช้เพื่อปรับปรุงประสิทธิภาพและคุณภาพของการทำคลัสเตอร์หลายมิติในระดับสูงได้

CrossClus ยอมรับการสืบค้นของผู้ใช้ที่มีความสัมพันธ์แบบเป้าหมายและแอตทริบิวต์ที่เกี่ยวข้องตั้งแต่หนึ่งรายการขึ้นไป ซึ่งกำหนดจุดมุ่งหมายการจัดกลุ่มของผู้ใช้ ในกระบวนการจัดกลุ่มแบบหลายความสัมพันธ์ CrossClus จำเป็นต้องค้นหาแอตทริบิวต์ที่เกี่ยวข้องในความสัมพันธ์ต่างๆ

CrossClus ควรจัดการกับความท้าทายที่สำคัญสองประการในระยะการค้นหา ขั้นแรก ความสัมพันธ์ของเป้าหมาย Rt โดยทั่วไปสามารถเข้าร่วมกับแต่ละความสัมพันธ์ที่ไม่ใช่เป้าหมาย R ผ่านเส้นทางการรวมหลายเส้นทาง และแต่ละแอตทริบิวต์ใน R สามารถใช้เป็นแอตทริบิวต์พหุสัมพันธ์ได้

ไม่สามารถเข้าถึงการค้นหาแบบละเอียดทุกประเภทในพื้นที่การค้นหาขนาดใหญ่นี้ ประการที่สอง ระหว่างแอตทริบิวต์จำนวนมาก คุณลักษณะบางอย่างเกี่ยวข้องกับข้อความค้นหาของผู้ใช้ ในขณะที่บางแอตทริบิวต์ไม่เกี่ยวข้อง (เช่น ข้อมูลส่วนบุคคลของเพื่อนร่วมชั้นของนักเรียน)

CrossClus ควรจำกัดระยะการค้นหา มันสามารถจัดการสคีมาเชิงสัมพันธ์เป็นกราฟ โดยที่ความสัมพันธ์เป็นโหนดและการรวมเป็นขอบ โดยใช้วิธีฮิวริสติก ซึ่งเริ่มค้นหาจากแอตทริบิวต์ที่ผู้ใช้กำหนด แล้วค้นหาแอตทริบิวต์ที่เป็นประโยชน์ซ้ำๆ ในบริเวณใกล้เคียงของแอตทริบิวต์ปัจจุบัน ในวิธีนี้จะค่อยๆ พัฒนาขอบเขตการค้นหาความสัมพันธ์ที่เชื่อมโยงกัน แต่จะไม่เป็นไปในทิศทางสุ่ม

CrossClus ดูวิธีที่แอตทริบิวต์คลัสเตอร์เป้าหมายทูเพิลส์ แอตทริบิวต์ที่เกี่ยวข้องจะถูกเลือกขึ้นอยู่กับความสัมพันธ์กับแอตทริบิวต์ที่ผู้ใช้กำหนด หากทูเพิลแอตทริบิวต์คลัสเตอร์สองรายการแยกจากกันมาก ความคล้ายคลึงกันจะต่ำและไม่น่าจะเชื่อมโยงกันได้ หากจัดกลุ่มสิ่งอันดับในลักษณะเดียวกัน จะต้องพิจารณาว่ามีความเกี่ยวข้อง