คลังข้อมูลเป็นเทคนิคที่ใช้เป็นหลักในการรวบรวมและจัดการข้อมูลจากแหล่งต่าง ๆ เพื่อให้ธุรกิจมีความเข้าใจอย่างลึกซึ้งทางธุรกิจที่มีความหมาย คลังข้อมูลได้รับการออกแบบมาโดยเฉพาะเพื่อรองรับการตัดสินใจของฝ่ายบริหาร
กล่าวอย่างง่าย ๆ คลังข้อมูลหมายถึงฐานข้อมูลที่ได้รับการดูแลแยกจากฐานข้อมูลการปฏิบัติงานขององค์กร ระบบคลังข้อมูลช่วยให้สามารถรวมระบบแอพพลิเคชั่นหลาย ๆ ตัวเข้าด้วยกัน พวกเขาให้การประมวลผลข้อมูลโดยสนับสนุนแพลตฟอร์มที่มั่นคงของข้อมูลในอดีตที่รวมไว้สำหรับการวิเคราะห์
คลังข้อมูลทั่วไปและรวบรวมข้อมูลในพื้นที่หลายมิติ การสร้างคลังข้อมูลประกอบด้วยการล้างข้อมูล การรวมข้อมูล และการแปลงข้อมูล และถือได้ว่าเป็นขั้นตอนก่อนการประมวลผลที่จำเป็นสำหรับการทำเหมืองข้อมูล เครื่องมือและยูทิลิตี้เหล่านี้เกี่ยวข้องกับฟังก์ชันต่อไปนี้ -
การแยกข้อมูล
การล้างข้อมูล การล้างข้อมูลหมายถึงการล้างข้อมูลโดยการเติมค่าที่หายไป ทำให้ข้อมูลที่มีเสียงดังราบรื่น ระบุและลบค่าผิดปกติ และขจัดความไม่สอดคล้องกันในข้อมูล
ประเภทของการล้างข้อมูล
-
ไม่มีค่า − ค่าที่หายไปจะถูกเติมด้วยค่าที่เหมาะสม ต่อไปนี้เป็นแนวทางในการเติมค่า
-
ข้อมูลที่มีเสียงดัง − สัญญาณรบกวนเป็นข้อผิดพลาดแบบสุ่มหรือความแปรปรวนในตัวแปรที่วัดได้ ต่อไปนี้เป็นเทคนิคการปรับให้เรียบในการจัดการเสียงรบกวนซึ่งมีดังต่อไปนี้ -
-
ถังเก็บ − เทคนิคเหล่านี้จะทำให้ค่าข้อมูลที่จัดเรียงเป็นไปอย่างราบรื่นโดยแนะนำ "พื้นที่ใกล้เคียง" นั่นคือค่าเกี่ยวกับข้อมูลที่มีเสียงดัง ค่าที่จัดเรียงถูกกำหนดเป็นหลายถังหรือหลายถัง เนื่องจากวิธี binning จะพิจารณาถึงค่าใกล้เคียง พวกมันจึงใช้การปรับให้เรียบในท้องถิ่น
-
การถดถอย − ข้อมูลสามารถทำให้เรียบได้โดยการปรับเร็กคอร์ดให้เข้ากับฟังก์ชัน รวมถึงการถดถอยด้วย การถดถอยเชิงเส้นเกี่ยวข้องกับการค้นหาเส้นที่ "ดีที่สุด" เพื่อให้พอดีกับสองแอตทริบิวต์ (หรือตัวแปร) เพื่อให้แอตทริบิวต์หนึ่งสามารถใช้ทำนายแอตทริบิวต์อื่นได้ การถดถอยเชิงเส้นพหุคูณคือความต่อเนื่องของการถดถอยเชิงเส้น โดยที่รวมแอตทริบิวต์มากกว่า 2 รายการและข้อมูลจะพอดีกับพื้นผิวหลายมิติ
-
การจัดกลุ่ม − การจัดกลุ่มช่วยในการระบุค่าผิดปกติ ค่าที่คล้ายกันจะถูกจัดเป็นกลุ่ม และค่าที่อยู่นอกคลัสเตอร์เรียกว่าค่าผิดปกติ
-
การแปลงข้อมูล − ในการแปลงข้อมูล ข้อมูลจะถูกแปลงหรือรวมเป็นรูปแบบที่เหมาะสมสำหรับการขุด การแปลงข้อมูลอาจเกี่ยวข้องกับสิ่งต่อไปนี้ -
-
ปรับให้เรียบ − มันสามารถทำงานเพื่อขจัดเสียงรบกวนจากข้อมูล เทคนิคดังกล่าวรวมถึงการ Binning การถดถอย และการจัดกลุ่ม
-
การรวม − ในการสรุปรวม ซึ่งการดำเนินการสรุปหรือการรวมจะถูกนำไปใช้กับข้อมูล
-
ลักษณะทั่วไป − ในลักษณะทั่วไป โดยที่ข้อมูลระดับต่ำหรือ "ดั้งเดิม" (ดิบ) ถูกกู้คืนโดยแนวคิดระดับใหญ่ผ่านการใช้ลำดับชั้นของแนวคิด
โหลด − มันสามารถจัดเรียง สรุป รวม คำนวณมุมมอง ตรวจสอบความสมบูรณ์ และสร้างดัชนีและพาร์ทิชัน
รีเฟรช - สามารถเผยแพร่การอัปเดตจากแหล่งข้อมูลไปยังคลังข้อมูลได้