Computer >> คอมพิวเตอร์ >  >> การเขียนโปรแกรม >> การเขียนโปรแกรม

การทำเหมืองข้อมูลแบบหลายเชิงสัมพันธ์คืออะไร?


วิธีการทำเหมืองข้อมูลแบบหลายเชิงสัมพันธ์ (MRDM) ค้นหาการออกแบบที่มีตาราง (ความสัมพันธ์) หลายรายการจากฐานข้อมูลเชิงสัมพันธ์ แต่ละตารางหรือความสัมพันธ์แสดงถึงเอนทิตีหรือความสัมพันธ์ ซึ่งอธิบายโดยชุดของแอตทริบิวต์ ความเชื่อมโยงระหว่างความสัมพันธ์แสดงถึงความสัมพันธ์ระหว่างกัน

มีวิธีหนึ่งในการใช้วิธีการทำเหมืองข้อมูลแบบดั้งเดิม (ซึ่งถือว่าข้อมูลอยู่ในตารางเดียว) คือการจัดตำแหน่งเชิงประพจน์ ซึ่งจะแปลงข้อมูลเชิงพหุสัมพันธ์ให้เป็นความสัมพันธ์ข้อมูลแบบแฟลตเดียว โดยใช้การรวมและการรวม

สิ่งนี้สามารถนำไปสู่การสร้าง “ความสัมพันธ์สากล” ที่ยิ่งใหญ่และไม่ต้องการ (เกี่ยวข้องกับคุณลักษณะทั้งหมด) นอกจากนี้ยังอาจส่งผลให้ข้อมูลสูญหาย ซึ่งรวมถึงข้อมูลเชิงความหมายที่สำคัญซึ่งแสดงโดยลิงก์ในการออกแบบฐานข้อมูล

การทำเหมืองข้อมูลแบบหลายเชิงสัมพันธ์มีจุดมุ่งหมายเพื่อค้นหาความรู้โดยตรงจากข้อมูลเชิงสัมพันธ์ มีฟังก์ชันการทำเหมืองข้อมูลแบบหลายความสัมพันธ์ที่แตกต่างกัน เช่น การแบ่งประเภทข้ามชาติ การจัดกลุ่ม และการทำเหมืองรูปแบบบ่อยครั้ง

ข้อดีของการจัดประเภทหลายเชิงสัมพันธ์คือการสร้างแบบจำลองการจัดประเภทที่ใช้ข้อมูลในความสัมพันธ์ที่แตกต่างกัน การจัดกลุ่มแบบหลายความสัมพันธ์มีจุดมุ่งหมายเพื่อจัดกลุ่ม tuples ออกเป็นกลุ่มโดยใช้คุณลักษณะเช่นเดียวกับ tuples ที่เกี่ยวข้องกับสิ่งอันดับในความสัมพันธ์ที่แตกต่างกัน การทำเหมืองข้อมูลรูปแบบที่ใช้บ่อยแบบหลายความสัมพันธ์มีจุดมุ่งหมายเพื่อค้นหารูปแบบที่เกี่ยวข้องกับรายการที่เชื่อมโยงถึงกันในความสัมพันธ์ที่แตกต่างกัน ขั้นแรกสามารถใช้การจำแนกประเภทหลายเชิงสัมพันธ์เป็นตัวอย่างเพื่อแสดงวัตถุประสงค์และขั้นตอนของการทำเหมืองข้อมูลแบบพหุสัมพันธ์

ในฐานข้อมูลสำหรับการจัดประเภทแบบหลายเชิงสัมพันธ์ มีความสัมพันธ์เป้าหมายหนึ่งรายการคือ Rt ซึ่ง tuples เรียกว่า tuples เป้าหมายและเกี่ยวข้องกับเลเบลคลาส ความสัมพันธ์อื่นๆ ไม่ใช่เป้าหมาย แต่ละความสัมพันธ์สามารถมีคีย์หลักได้หนึ่งคีย์ (ซึ่งจดจำทูเพิลในความสัมพันธ์ได้โดยไม่ซ้ำกัน) และคีย์ภายนอกหลายคีย์ (โดยที่คีย์หลักในความสัมพันธ์หนึ่งสามารถเชื่อมต่อกับคีย์ภายนอกในอีกคีย์หนึ่งได้)

หากสามารถพิจารณาปัญหาสองคลาสได้ ก็สามารถเลือกคลาสหนึ่งเป็นคลาสบวก และอีกคลาสเป็นคลาสเชิงลบ บริการสำหรับการสร้างตัวแยกประเภทพหุเชิงสัมพันธ์ที่แม่นยำคือการค้นหาคุณลักษณะที่เกี่ยวข้องในความสัมพันธ์ที่แตกต่างกันซึ่งช่วยในการจัดหมวดหมู่ tuples เป้าหมายเชิงบวกและเชิงลบ

รูปแบบสมมติฐานที่นิยมมากที่สุดสำหรับการจำแนกประเภทพหุสัมพันธ์คือชุดของกฎ แต่ละกฎคือรายการ (การรวมเชิงตรรกะ) ของเพรดิเคต ซึ่งเชื่อมโยงกับเลเบลคลาส เพรดิเคตคือข้อจำกัดของแอตทริบิวต์ในความสัมพันธ์ เพรดิเคตมักจะถูกกำหนดโดยยึดตามพาธการเข้าร่วมที่แน่นอน ทูเพิลเป้าหมายเป็นไปตามกฎก็ต่อเมื่อเป็นไปตามทุกเพรดิเคตของกฎ