Computer >> คอมพิวเตอร์ >  >> การเขียนโปรแกรม >> การเขียนโปรแกรม

คลังข้อมูลคืออะไร


คลังข้อมูลเป็นเทคนิคที่ใช้เป็นหลักในการรวบรวมและจัดการข้อมูลจากแหล่งต่าง ๆ เพื่อให้ธุรกิจมีความเข้าใจอย่างลึกซึ้งทางธุรกิจที่มีความหมาย คลังข้อมูลได้รับการออกแบบมาโดยเฉพาะเพื่อรองรับการตัดสินใจของฝ่ายบริหาร

กล่าวอย่างง่าย ๆ คลังข้อมูลกำหนดฐานข้อมูลที่ได้รับการดูแลอย่างเป็นอิสระจากฐานข้อมูลการดำเนินงานขององค์กร ระบบคลังข้อมูลช่วยให้สามารถรวมระบบแอพพลิเคชั่นหลายตัวเข้าด้วยกัน พวกเขาให้การประมวลผลข้อมูลโดยนำเสนอแพลตฟอร์มที่มั่นคงของข้อมูลในอดีตที่รวมไว้สำหรับการวิเคราะห์

คลังข้อมูลทั่วไปและรวมศูนย์ข้อมูลในพื้นที่หลายมิติ การสร้างคลังข้อมูลประกอบด้วยการล้างข้อมูล การผสานรวมข้อมูล และการแปลงข้อมูล ถือเป็นขั้นตอนสำคัญก่อนการประมวลผลสำหรับการขุดข้อมูล

ให้บริการเครื่องมือประมวลผลเชิงวิเคราะห์ออนไลน์ (OLAP) สำหรับการวิเคราะห์เชิงโต้ตอบของข้อมูลหลายมิติที่มีความละเอียดต่างกัน ซึ่งอำนวยความสะดวกในการสรุปข้อมูลและการทำเหมืองข้อมูลอย่างมีประสิทธิภาพ มีฟังก์ชันการขุดข้อมูลหลายอย่าง รวมถึงการเชื่อมโยง การจำแนก การทำนาย และการจัดกลุ่มเข้ากับการดำเนินการ OLAP เพื่อสร้างการขุดเชิงโต้ตอบของความรู้ในระดับต่างๆ ของนามธรรม

Data Warehouse มีสามประเภทหลักดังต่อไปนี้ -

คลังข้อมูลองค์กร (EDW) − Enterprise Data Warehouse เป็นคลังสินค้าแบบรวมศูนย์ ใช้สำหรับจัดระเบียบและแสดงข้อมูล ด้วยความช่วยเหลือของ EDW ผู้ใช้สามารถจัดประเภทข้อมูลตามหัวเรื่องได้

ที่เก็บข้อมูลการปฏิบัติงาน − ใน Operational Data Store คลังข้อมูลจะถูกรีเฟรชแบบเรียลไทม์ ดังนั้นจึงมักใช้สำหรับกิจกรรมประจำวันรวมถึงการจัดเก็บบันทึก ฯลฯ

ดาต้ามาร์ท − ดาต้ามาร์ทสามารถกำหนดเป็นส่วนย่อยของคลังข้อมูลได้ ออกแบบมาสำหรับการขาย การเงิน และอื่นๆ

ลักษณะของคลังข้อมูล

คลังข้อมูลมีลักษณะต่างๆ ดังนี้ -

  • เน้นเฉพาะเรื่อง − คลังข้อมูลมุ่งเป้าไปที่การสร้างแบบจำลองและการวิเคราะห์ข้อมูลสำหรับผู้มีอำนาจตัดสินใจ ดังนั้น โดยทั่วไป คลังข้อมูลจะให้มุมมองที่เรียบง่ายและรัดกุมสำหรับประเด็นเฉพาะเจาะจง โดยไม่รวมข้อมูลที่ไม่เป็นประโยชน์ในกระบวนการสนับสนุนการตัดสินใจ

  • บูรณาการ − เนื่องจากคลังข้อมูลมักจะสร้างโดยการรวมแหล่งข้อมูลที่แตกต่างกันหลายแหล่ง เช่น ฐานข้อมูลเชิงสัมพันธ์ ไฟล์แบบแฟลต และบันทึกธุรกรรมออนไลน์ จึงจำเป็นต้องใช้เทคนิคการล้างข้อมูลและการรวมข้อมูลเพื่อให้มีความสอดคล้องในการตั้งชื่อ กลไกการเข้ารหัส การวัดแอตทริบิวต์ , ฯลฯ

  • ตัวแปรเวลา − ข้อมูลถูกบันทึกเพื่อให้ข้อมูลจากมุมมองทางประวัติศาสตร์ (เช่น 5-10 ปีที่ผ่านมา) กลไกหลักแต่ละอย่างในคลังข้อมูลรวมถึงองค์ประกอบของเวลาไม่ว่าจะโดยนัยหรือโดยชัดแจ้ง

  • ไม่ระเหย คลังข้อมูลเป็นที่เก็บข้อมูลที่เปลี่ยนแปลงจากข้อมูลซอฟต์แวร์ที่พบในสภาพแวดล้อมการทำงานเสมอ เนื่องจากการแยกนี้ คลังข้อมูลจึงไม่ต้องการการประมวลผลธุรกรรม การกู้คืน และโครงสร้างการควบคุมภาวะพร้อมกัน โดยปกติต้องใช้เพียงสองการดำเนินการในการเข้าถึงข้อมูล นั่นคือ การโหลดข้อมูลครั้งแรกและการเข้าถึงข้อมูล