Computer >> คอมพิวเตอร์ >  >> การเขียนโปรแกรม >> การเขียนโปรแกรม

วิธีการสกัดต่างๆ ในคลังข้อมูลมีอะไรบ้าง?


วิธีการแยกจะขึ้นอยู่กับกฎต้นทางอย่างมากและขึ้นอยู่กับความต้องการทางธุรกิจในสภาพแวดล้อมคลังข้อมูลเป้าหมาย ข้อมูลจำนวนมากโดยประมาณที่จะดึงออกมาและเฟสในกระบวนงาน ETL (โหลดดั้งเดิมหรือการเก็บรักษาบันทึก) ยังสามารถบังคับกำหนดว่าจะดึงข้อมูลอย่างไร จากมุมมองเชิงตรรกะและทางกายภาพ วิธีการสกัดมีสองประเภท ได้แก่ วิธีการสกัดแบบลอจิคัลและวิธีการสกัดทางกายภาพ

วิธีการสกัดเชิงตรรกะ

การสกัดแบบลอจิคัลมีสองประเภทดังนี้ −

  • การสกัดแบบเต็ม − ข้อมูลถูกดึงมาจากระบบต้นทางทั้งหมด เนื่องจากการดึงข้อมูลนี้จะติดตามข้อมูลทั้งหมดที่เข้าถึงได้โดยตรงบนระบบต้นทาง จึงไม่มีความจำเป็นต้องติดตามการเปลี่ยนแปลงในแหล่งข้อมูลเนื่องจากการดึงข้อมูลสำเร็จในขั้นสุดท้าย

    ข้อมูลต้นทางจะได้รับการสนับสนุนและไม่จำเป็นต้องมีข้อมูลเชิงตรรกะเพิ่มเติม (เช่น การประทับเวลา) บนไซต์ต้นทาง ตัวอย่างของการแยกแบบเต็มอาจเป็นเอกสารส่งออกของตารางที่แตกต่างกันหรือคำสั่ง SQL ระยะไกลที่สแกนตารางที่มาทั้งหมด

  • การแยกส่วนที่เพิ่มขึ้น − มีข้อมูลที่เปลี่ยนแปลงไปเนื่องจากเหตุการณ์ที่ชัดเจนในอดีตจะถูกดึงออกมา เหตุการณ์นี้อาจเป็นครั้งสุดท้ายของการดึงข้อมูลหรือเหตุการณ์ทางธุรกิจที่ซับซ้อนกว่า เช่น วันที่จองสุดท้ายของรอบระยะเวลาบัญชี

    มันสามารถรับรู้การเปลี่ยนแปลงเดลต้านี้ ควรจะมีความเป็นไปได้ที่จะรับรู้ข้อมูลที่เปลี่ยนแปลงทั้งหมดเนื่องจากเหตุการณ์เวลาที่แน่นอนนี้ ข้อมูลนี้สามารถสนับสนุนโดยแหล่งข้อมูลเอง รวมถึงคอลัมน์ซอฟต์แวร์ ซึ่งสะท้อนถึงการประทับเวลาที่เปลี่ยนแปลงครั้งสุดท้าย หรือตารางการเปลี่ยนแปลงที่โครงสร้างเพิ่มเติมที่เหมาะสมจะรักษาเครื่องหมายของการเปลี่ยนแปลงไว้นอกเหนือจากธุรกรรมที่เพิ่มขึ้น โดยทั่วไป การใช้เทคนิคหลังจะกำหนดตรรกะการดึงข้อมูลลงในระบบต้นทาง

วิธีการสกัดทางกายภาพ

มันขึ้นอยู่กับวิธีการแยกแบบลอจิคัลที่เลือกและความจุและเงื่อนไขในฝั่งต้นทาง ข้อมูลที่แยกออกมาสามารถดึงออกมาทางร่างกายโดยสองโครงสร้าง ข้อมูลสามารถดึงข้อมูลออนไลน์จากระบบต้นทางหรือกลไกออฟไลน์ กลไกออฟไลน์ดังกล่าวสามารถเกิดขึ้นได้อยู่แล้วหรือสามารถสร้างขึ้นได้ด้วยรูทีนการแยกข้อมูล

มีวิธีการสกัดทางกายภาพดังต่อไปนี้ -

  • การสกัดแบบออนไลน์ − ข้อมูลถูกดึงออกมาจากระบบต้นทางอย่างแม่นยำ ขั้นตอนการดึงข้อมูลสามารถเชื่อมโยงโดยตรงกับระบบต้นทางเพื่อเชื่อมต่อตารางต้นทางด้วยตนเองหรือกับระบบกลางที่บันทึกข้อมูลในลักษณะที่กำหนดไว้ล่วงหน้า (เช่น บันทึกสแน็ปช็อตหรือตารางกะ)

  • การสกัดแบบออฟไลน์ − ข้อมูลไม่ได้ถูกดึงออกมาอย่างแม่นยำจากระบบต้นทาง แต่ถูกดำเนินการโดยเฉพาะนอกระบบต้นทางเริ่มต้น ข้อมูลมีสถาปัตยกรรมปัจจุบัน (เช่น บันทึกซ้ำ บันทึกเก็บถาวร หรือพื้นที่ตารางมือถือ) หรือสร้างขึ้นโดยรูทีนการแยกข้อมูล