Computer >> คอมพิวเตอร์ >  >> การเขียนโปรแกรม >> การเขียนโปรแกรม

กระบวนการของ Data Warehouse คืออะไร?


การแสดงข้อมูลเป็นกระบวนการหลักที่มีกระบวนการย่อยดังต่อไปนี้ -

สกัด − ขั้นตอนการดึงข้อมูลเป็นขั้นตอนแรกของการรับข้อมูลเข้าสู่สภาพแวดล้อมคลังข้อมูล การแตกไฟล์จะกำหนดการอ่านและการเรียนรู้แหล่งข้อมูล และการคัดลอกองค์ประกอบที่จำเป็นสำหรับพื้นที่การจัดเตรียมข้อมูลเพื่อการทำงานที่มากขึ้น

เปลี่ยนแปลง − เนื่องจากข้อมูลถูกดึงออกมาในพื้นที่การแสดงข้อมูล จึงมีกระบวนการแปลงที่เป็นไปได้หลายประการ ดังนี้ −

  • สามารถทำความสะอาดข้อมูลโดยการแก้ไขการสะกดผิด แก้ไขข้อขัดแย้งของโดเมน (รวมถึงชื่อเมืองที่ไม่สอดคล้องกับรหัสไปรษณีย์) การจัดการกับองค์ประกอบข้อมูลที่ขาดหายไป และการกำหนดรูปแบบมาตรฐาน

  • สามารถใช้เพื่อล้างข้อมูลในช่องที่เลือกออกจากระเบียนเดิมที่ไม่เป็นประโยชน์สำหรับคลังข้อมูล

  • อาจเป็นการรวมแหล่งข้อมูล โดยสอดคล้องกับค่าคีย์หรือโดยการใช้การจับคู่แบบคลุมเครือกับแอตทริบิวต์ที่ไม่ใช่คีย์ เช่น ค้นหาข้อความที่เหมือนกันของรหัสระบบเดิม

  • สามารถสร้างคีย์ตัวแทนสำหรับแต่ละข้อมูลมิติเพื่อหลีกเลี่ยงการพึ่งพาคีย์ที่กำหนดไว้แบบเดิม โดยที่กระบวนการสร้างคีย์ตัวแทนใช้ความสมบูรณ์ของการอ้างอิงระหว่างตารางมิติและตารางข้อเท็จจริง

  • สามารถใช้เพื่อสร้างการรวมเพื่อเพิ่มการดำเนินการของการค้นหาทั่วไป

กำลังโหลดและจัดทำดัชนี − เมื่อสิ้นสุดเฟสการแปลง ข้อมูลอยู่ในการออกแบบอิมเมจโหลดข้อมูล การโหลดในสภาพแวดล้อมของคลังข้อมูลโดยทั่วไปจะอยู่ในรูปแบบของการแสดงตารางไดเมนชันและตารางแฟคท์ และนำเสนอตารางเหล่านี้กับสิ่งอำนวยความสะดวกในการโหลดขนาดของดาต้ามาร์ทผู้รับแต่ละราย

การตรวจสอบการประกันคุณภาพ − เมื่อมีการโหลดและจัดทำดัชนีแต่ละ data mart และจัดให้มีการรวมที่เหมาะสม ขั้นตอนสุดท้ายก่อนการโฆษณาคือขั้นตอนการประกันคุณภาพ สามารถตรวจสอบการประกันคุณภาพได้โดยใช้เอกสารข้อยกเว้นที่ครอบคลุมในชุดข้อมูลที่โหลดใหม่ทั้งหมด

ควรมีองค์ประกอบการรายงานทั้งหมด และการนับและยอดรวมทั้งหมดควรเพียงพอ ค่าที่รายงานทั้งหมดควรพึ่งพาลำดับเวลาของค่าเดียวกันกับที่คาดการณ์ไว้ เอกสารยกเว้นถูกสร้างขึ้นด้วยเครื่องมืออำนวยความสะดวกในการเขียนเอกสารสำหรับผู้ใช้ปลายทางของ data mart

เผยแพร่/เผยแพร่ − เมื่อแต่ละดาต้ามาร์ทได้รับการโหลดและรับประกันคุณภาพแล้ว ชุมชนผู้ใช้ควรได้รับแจ้งว่าเร็กคอร์ดใหม่พร้อมแล้ว การเผยแพร่ยังเชื่อมโยงธรรมชาติของการเปลี่ยนแปลงใดๆ ที่ปรากฏในมิติพื้นฐานและสมมติฐานใหม่ที่ได้รับการแนะนำในข้อเท็จจริงที่วัดหรือคำนวณได้

สอบถาม − การสืบค้นเป็นคำกว้างๆ ที่ครอบคลุมกิจกรรมทั้งหมดของการร้องขอข้อมูลจาก data mart เช่น การสืบค้นเฉพาะกิจโดยผู้ใช้ปลายทาง การเขียนเอกสาร แอปพลิเคชันสนับสนุนการตัดสินใจที่ซับซ้อน คำขอจากแบบจำลอง และการขุดข้อมูลที่ซับซ้อน