คลังข้อมูลเป็นเทคนิคที่ใช้เป็นหลักในการรวบรวมและจัดการข้อมูลจากแหล่งต่าง ๆ เพื่อให้ธุรกิจมีความเข้าใจอย่างลึกซึ้งทางธุรกิจที่มีความหมาย คลังข้อมูลได้รับการออกแบบมาโดยเฉพาะเพื่อรองรับการตัดสินใจของฝ่ายบริหาร
กล่าวอย่างง่าย ๆ คลังข้อมูลกำหนดฐานข้อมูลที่ได้รับการดูแลอย่างเป็นอิสระจากฐานข้อมูลการดำเนินงานขององค์กร ระบบคลังข้อมูลช่วยให้สามารถรวมระบบแอพพลิเคชั่นหลายตัวเข้าด้วยกัน พวกเขาให้การประมวลผลข้อมูลโดยนำเสนอแพลตฟอร์มที่มั่นคงของข้อมูลในอดีตที่รวมไว้สำหรับการวิเคราะห์
คลังข้อมูลทั่วไปและรวมศูนย์ข้อมูลในพื้นที่หลายมิติ การสร้างคลังข้อมูลประกอบด้วยการล้างข้อมูล การผสานรวมข้อมูล และการแปลงข้อมูล ถือเป็นขั้นตอนสำคัญก่อนการประมวลผลสำหรับการขุดข้อมูล
ให้บริการเครื่องมือประมวลผลเชิงวิเคราะห์ออนไลน์ (OLAP) สำหรับการวิเคราะห์เชิงโต้ตอบของข้อมูลหลายมิติที่มีความละเอียดต่างกัน ซึ่งอำนวยความสะดวกในการสรุปข้อมูลและการทำเหมืองข้อมูลอย่างมีประสิทธิภาพ มีฟังก์ชันการขุดข้อมูลหลายอย่าง รวมถึงการเชื่อมโยง การจำแนก การทำนาย และการจัดกลุ่มเข้ากับการดำเนินการ OLAP เพื่อสร้างการขุดเชิงโต้ตอบของความรู้ในระดับต่างๆ ของนามธรรม
Data Warehouse มีสามประเภทหลักดังต่อไปนี้ -
คลังข้อมูลองค์กร (EDW) − Enterprise Data Warehouse เป็นคลังสินค้าแบบรวมศูนย์ ใช้สำหรับจัดระเบียบและแสดงข้อมูล ด้วยความช่วยเหลือของ EDW ผู้ใช้สามารถจัดประเภทข้อมูลตามหัวเรื่องได้
ที่เก็บข้อมูลการปฏิบัติงาน − ใน Operational Data Store คลังข้อมูลจะถูกรีเฟรชแบบเรียลไทม์ ดังนั้นจึงมักใช้สำหรับกิจกรรมประจำวันรวมถึงการจัดเก็บบันทึก ฯลฯ
ดาต้ามาร์ท − ดาต้ามาร์ทสามารถกำหนดเป็นส่วนย่อยของคลังข้อมูลได้ ออกแบบมาสำหรับการขาย การเงิน และอื่นๆ
ลักษณะของคลังข้อมูล
คลังข้อมูลมีลักษณะต่างๆ ดังนี้ -
-
เน้นเฉพาะเรื่อง − คลังข้อมูลมุ่งเป้าไปที่การสร้างแบบจำลองและการวิเคราะห์ข้อมูลสำหรับผู้มีอำนาจตัดสินใจ ดังนั้น โดยทั่วไป คลังข้อมูลจะให้มุมมองที่เรียบง่ายและรัดกุมสำหรับประเด็นเฉพาะเจาะจง โดยไม่รวมข้อมูลที่ไม่เป็นประโยชน์ในกระบวนการสนับสนุนการตัดสินใจ
-
บูรณาการ − เนื่องจากคลังข้อมูลมักจะสร้างโดยการรวมแหล่งข้อมูลที่แตกต่างกันหลายแหล่ง เช่น ฐานข้อมูลเชิงสัมพันธ์ ไฟล์แบบแฟลต และบันทึกธุรกรรมออนไลน์ จึงจำเป็นต้องใช้เทคนิคการล้างข้อมูลและการรวมข้อมูลเพื่อให้มีความสอดคล้องในการตั้งชื่อ กลไกการเข้ารหัส การวัดแอตทริบิวต์ , ฯลฯ
-
ตัวแปรเวลา − ข้อมูลถูกบันทึกเพื่อให้ข้อมูลจากมุมมองทางประวัติศาสตร์ (เช่น 5-10 ปีที่ผ่านมา) กลไกหลักแต่ละอย่างในคลังข้อมูลรวมถึงองค์ประกอบของเวลาไม่ว่าจะโดยนัยหรือโดยชัดแจ้ง
-
ไม่ระเหย คลังข้อมูลเป็นที่เก็บข้อมูลที่เปลี่ยนแปลงจากข้อมูลซอฟต์แวร์ที่พบในสภาพแวดล้อมการทำงานเสมอ เนื่องจากการแยกนี้ คลังข้อมูลจึงไม่ต้องการการประมวลผลธุรกรรม การกู้คืน และโครงสร้างการควบคุมภาวะพร้อมกัน โดยปกติต้องใช้เพียงสองการดำเนินการในการเข้าถึงข้อมูล นั่นคือ การโหลดข้อมูลครั้งแรกและการเข้าถึงข้อมูล