การรวมข้อมูลเป็นขั้นตอนของการรวมข้อมูลจากแหล่งที่แตกต่างกันหลายแห่ง ขณะใช้การรวมข้อมูล ควรทำงานบนความซ้ำซ้อนของข้อมูล ความไม่สอดคล้อง ความซ้ำซ้อน ฯลฯ ในการทำเหมืองข้อมูล การรวมข้อมูลเป็นเทคนิคก่อนการประมวลผลข้อมูลที่มีการผสานข้อมูลจากแหล่งข้อมูลที่แตกต่างกันจำนวนมากเป็นข้อมูลที่สอดคล้องกันเพื่อรักษาและสนับสนุนมุมมองที่รวมไว้ ของข้อมูล
รวมข้อมูลจากแหล่งต่าง ๆ ลงในที่เก็บข้อมูลที่สอดคล้องกัน รวมถึงในคลังข้อมูล แหล่งข้อมูลเหล่านี้อาจเกี่ยวข้องกับฐานข้อมูล คิวบ์ข้อมูล หรือไฟล์แบบแฟลตหลายไฟล์ ฯลฯ มีหลายประเด็นที่ต้องพิจารณาในระหว่างการรวมข้อมูล
-
การรวมสคีมาและการจับคู่อ็อบเจ็กต์อาจซับซ้อน ตัวอย่างเช่น การจับคู่การระบุเอนทิตี (emp_id ในฐานข้อมูลหนึ่งและ emp_no ในฐานข้อมูลอื่น) ปัญหาดังกล่าวสามารถป้องกันได้โดยใช้ข้อมูลเมตา
-
ความซ้ำซ้อนเป็นอีกปัญหาหนึ่ง ตัวอย่างเช่น แอตทริบิวต์ที่รวมรายได้รายปี อาจซ้ำซ้อนได้ หากดึงมาจากแอตทริบิวต์อื่นหรือชุดของแอตทริบิวต์ ความไม่สอดคล้องกันในการตั้งชื่อแอตทริบิวต์หรือมิติข้อมูลยังสามารถสร้างความซ้ำซ้อนในชุดข้อมูลที่ปรากฏได้
-
ความซ้ำซ้อนบางอย่างสามารถค้นพบได้โดยการวิเคราะห์สหสัมพันธ์ เมื่อพิจารณาจากคุณลักษณะสองประการ การวิเคราะห์ดังกล่าวสามารถคำนวณว่าแอตทริบิวต์หนึ่งสื่อถึงแอตทริบิวต์อื่นๆ ได้มากเพียงใด โดยอิงจากข้อมูลที่มีอยู่ สำหรับแอตทริบิวต์ที่เป็นตัวเลข มันสามารถประเมินความสัมพันธ์ระหว่างสองแอตทริบิวต์ A และ B โดยการคำนวณค่าสัมประสิทธิ์สหสัมพันธ์ นี่คือ
$$r_{A,B}=\frac{\sum_{i=1}^{n}(a_{i}-A^{'})(b_{i}-B^{'})}{N \sigma _{A}\sigma _{B}}=\frac{\sum_{i=1}^{n}(a_{i}b_{i})-NA^{'}B^{'}} {N\sigma _{A}\sigma _{B}}$$
โดยที่ N คือจำนวนของสิ่งอันดับ ai และ bi คือค่าที่เกี่ยวข้องของ A และ B ในทูเพิล i, A ’ และบี ’ คือค่าเฉลี่ยตามลำดับของ A และ B, σA และ σB คือค่าเบี่ยงเบนมาตรฐานตามลำดับของ A และ B และ Σ(ai bผม ) คือผลรวมของผลคูณ AB ที่ สำหรับแต่ละทูเพิล ค่าของ A จะถูกคูณด้วยค่าของ B ในทูเพิลนั้น
ความสัมพันธ์ไม่ได้หมายความถึงความเป็นเหตุเป็นผล กล่าวคือ ถ้า A และ B มีความสัมพันธ์กัน ไม่ได้หมายความว่า A ทำให้เกิด B หรือ B ทำให้เกิด A ตัวอย่างเช่น ในการวิเคราะห์ฐานข้อมูลประชากร จะพบว่าคุณลักษณะที่กำหนดโรงพยาบาลหลายแห่งและการโจรกรรมรถยนต์หลายแห่งใน ภูมิภาคมีความสัมพันธ์กัน สิ่งนี้ไม่ได้กำหนดว่าสิ่งหนึ่งทำให้เกิดอีกสิ่งหนึ่ง โดยทั่วไปแล้วทั้งคู่จะเชื่อมโยงกับแอตทริบิวต์ที่สาม เช่น ประชากร
ปัญหาสำคัญประการที่สามในการรวมข้อมูลคือการตรวจหาและแก้ไขปัญหาความขัดแย้งของค่าข้อมูล ตัวอย่างเช่น สำหรับเอนทิตีในโลกแห่งความเป็นจริงเดียวกัน ค่าแอตทริบิวต์จากแหล่งที่มาหลายแห่งอาจแตกต่างกัน อาจเป็นเพราะความแตกต่างในการแสดง การปรับสเกล หรือการเข้ารหัส