การรวมข้อมูลเป็นขั้นตอนของการผสานข้อมูลจากแหล่งที่แตกต่างกันหลายแห่ง ขณะทำการรวมข้อมูล จะต้องทำงานบน data redundancy, inconsistency, duplicity ฯลฯ ในการทำ data mining การรวมข้อมูลเป็นวิธีการเตรียมบันทึกที่รวมข้อมูลจากแหล่งข้อมูลที่ต่างกันสองแห่งเป็นข้อมูลที่เชื่อมโยงกันเพื่อเก็บรักษาและจัดเตรียมให้เป็นหนึ่งเดียว มุมมองของข้อมูล
การรวมข้อมูลมีความสำคัญอย่างยิ่งในอุตสาหกรรมการดูแลสุขภาพ ข้อมูลแบบบูรณาการจากบันทึกผู้ป่วยและคลินิกหลายแห่งช่วยแพทย์ในการระบุความผิดปกติทางการแพทย์และโรคต่างๆ โดยการผสานข้อมูลจากหลายระบบไว้ในมุมมองเดียวของข้อมูลที่เป็นประโยชน์ซึ่งจะได้รับข้อมูลเชิงลึกที่เป็นประโยชน์
การรวบรวมและการรวมข้อมูลอย่างมีประสิทธิภาพยังช่วยปรับปรุงความถูกต้องของการประมวลผลการเรียกร้องค่ารักษาพยาบาล และทำให้แน่ใจว่าชื่อผู้ป่วยและข้อมูลติดต่อได้รับการบันทึกอย่างสม่ำเสมอและถูกต้อง การทำงานร่วมกันหมายถึงการแบ่งปันข้อมูลข้ามระบบต่างๆ
เมื่อเรามีข้อมูลในรูปแบบที่แตกต่างจากที่จำเป็น แล้ววิธีการรวมก็สามารถนำไปใช้กับแอตทริบิวต์เพื่อให้ได้แอตทริบิวต์ที่ต้องการ ตัวอย่างเช่น ร้านค้ามีข้อมูลประกอบด้วยยอดขายรายไตรมาสสำหรับปี 2010 ถึง 2012 ข้อมูลมีอยู่ในแบบฟอร์มรายไตรมาส แต่จำเป็นต้องเรียกข้อมูลยอดขายประจำปี จึงต้องรวบรวมข้อมูลเพื่อค้นหาผลลัพธ์ที่ต้องการ
ไตรมาส | ยอดขาย | ไตรมาส | ยอดขาย | ไตรมาส | ยอดขาย | ปี | ยอดขาย |
---|---|---|---|---|---|---|---|
ปี 2553 | ปี 2554 | ปี 2555 | ยอดขายปี | ||||
ไตรมาสที่ 1 | 10,000 บาท | ไตรมาสที่ 1 | 8,000 บาท | ไตรมาสที่ 1 | 15,000 รูปี | 2010 | Rs.1,30,000 |
ไตรมาสที่ 2 | 50000 รูปี | ไตรมาสที่ 2 | 15,000 รูปี | ไตรมาสที่ 2 | 20,000 บาท | 2011 | 53000 บาท |
ไตรมาสที่ 3 | 40000 รูปี | ไตรมาสที่ 3 | 10,000 บาท | ไตรมาสที่ 3 | 40000 รูปี | 2012 | Rs.1,05,000 |
ไตรมาสที่ 4 | 30,000 บาท | ไตรมาสที่ 4 | 20,000 บาท | ไตรมาสที่ 4 | 30,000 บาท |
ยอดขายต่อไตรมาสตั้งแต่ปี 2010 ถึง 2012 รวมเป็นสถิติยอดขายประจำปีเดียว
ลำดับชั้นของแนวคิดอาจมีอยู่สำหรับแต่ละคุณลักษณะ ทำให้สามารถวิเคราะห์ข้อมูลได้หลายระดับของนามธรรม ตัวอย่างเช่น ลำดับชั้นสำหรับสาขาอาจอนุญาตให้มีการจัดกลุ่มสาขาตามภูมิภาคตามที่อยู่ คิวบ์ข้อมูลสนับสนุนการเข้าถึงอย่างรวดเร็วไปยังข้อมูลที่สรุปไว้ล่วงหน้าและคำนวณล่วงหน้า ซึ่งเป็นประโยชน์ต่อการประมวลผลเชิงวิเคราะห์ออนไลน์และการขุดข้อมูล
ลูกบาศก์ที่สร้างขึ้นในระดับต่ำสุดของนามธรรมถูกกำหนดให้เป็นทรงลูกบาศก์ฐาน ฐานทรงลูกบาศก์ควรสอดคล้องกับเอนทิตีเดียวที่น่าสนใจ รวมทั้งการขายหรือลูกค้า กล่าวอีกนัยหนึ่ง ระดับต่ำสุดต้องใช้งานได้ หรือเป็นประโยชน์สำหรับการวิเคราะห์ ลูกบาศก์ที่ระดับสูงสุดของนามธรรมคือลูกบาศก์ยอด
ดาต้าคิวบ์ที่สร้างขึ้นสำหรับนามธรรมหลายระดับถูกกำหนดเป็นคิวบอยด์ ดังนั้นดาต้าคิวบ์จึงสามารถกำหนดแลตทิซของทรงลูกบาศก์ได้ ระดับนามธรรมที่ใหญ่ขึ้นแต่ละระดับจะลดขนาดข้อมูลผลลัพธ์ลงอีก เมื่อตอบกลับคำขอการขุดข้อมูล ควรใช้ลูกบาศก์ที่เล็กที่สุดที่เกี่ยวข้องกับงานที่กำหนด