Computer >> คอมพิวเตอร์ >  >> การเขียนโปรแกรม >> การเขียนโปรแกรม

เครื่องมือและยูทิลิตี้ของคลังข้อมูลคืออะไร


คลังข้อมูลเป็นเทคนิคที่ใช้เป็นหลักในการรวบรวมและจัดการข้อมูลจากแหล่งต่าง ๆ เพื่อให้ธุรกิจมีความเข้าใจอย่างลึกซึ้งทางธุรกิจที่มีความหมาย คลังข้อมูลได้รับการออกแบบมาโดยเฉพาะเพื่อรองรับการตัดสินใจของฝ่ายบริหาร

กล่าวอย่างง่าย ๆ คลังข้อมูลหมายถึงฐานข้อมูลที่ได้รับการดูแลแยกจากฐานข้อมูลการปฏิบัติงานขององค์กร ระบบคลังข้อมูลช่วยให้สามารถรวมระบบแอพพลิเคชั่นหลาย ๆ ตัวเข้าด้วยกัน พวกเขาให้การประมวลผลข้อมูลโดยสนับสนุนแพลตฟอร์มที่มั่นคงของข้อมูลในอดีตที่รวมไว้สำหรับการวิเคราะห์

คลังข้อมูลทั่วไปและรวบรวมข้อมูลในพื้นที่หลายมิติ การสร้างคลังข้อมูลประกอบด้วยการล้างข้อมูล การรวมข้อมูล และการแปลงข้อมูล และถือได้ว่าเป็นขั้นตอนก่อนการประมวลผลที่จำเป็นสำหรับการทำเหมืองข้อมูล เครื่องมือและยูทิลิตี้เหล่านี้เกี่ยวข้องกับฟังก์ชันต่อไปนี้ -

การแยกข้อมูล

การล้างข้อมูล การล้างข้อมูลหมายถึงการล้างข้อมูลโดยการเติมค่าที่หายไป ทำให้ข้อมูลที่มีเสียงดังราบรื่น ระบุและลบค่าผิดปกติ และขจัดความไม่สอดคล้องกันในข้อมูล

ประเภทของการล้างข้อมูล

  • ไม่มีค่า − ค่าที่หายไปจะถูกเติมด้วยค่าที่เหมาะสม ต่อไปนี้เป็นแนวทางในการเติมค่า

  • ข้อมูลที่มีเสียงดัง − สัญญาณรบกวนเป็นข้อผิดพลาดแบบสุ่มหรือความแปรปรวนในตัวแปรที่วัดได้ ต่อไปนี้เป็นเทคนิคการปรับให้เรียบในการจัดการเสียงรบกวนซึ่งมีดังต่อไปนี้ -

    • ถังเก็บ − เทคนิคเหล่านี้จะทำให้ค่าข้อมูลที่จัดเรียงเป็นไปอย่างราบรื่นโดยแนะนำ "พื้นที่ใกล้เคียง" นั่นคือค่าเกี่ยวกับข้อมูลที่มีเสียงดัง ค่าที่จัดเรียงถูกกำหนดเป็นหลายถังหรือหลายถัง เนื่องจากวิธี binning จะพิจารณาถึงค่าใกล้เคียง พวกมันจึงใช้การปรับให้เรียบในท้องถิ่น

    • การถดถอย − ข้อมูลสามารถทำให้เรียบได้โดยการปรับเร็กคอร์ดให้เข้ากับฟังก์ชัน รวมถึงการถดถอยด้วย การถดถอยเชิงเส้นเกี่ยวข้องกับการค้นหาเส้นที่ "ดีที่สุด" เพื่อให้พอดีกับสองแอตทริบิวต์ (หรือตัวแปร) เพื่อให้แอตทริบิวต์หนึ่งสามารถใช้ทำนายแอตทริบิวต์อื่นได้ การถดถอยเชิงเส้นพหุคูณคือความต่อเนื่องของการถดถอยเชิงเส้น โดยที่รวมแอตทริบิวต์มากกว่า 2 รายการและข้อมูลจะพอดีกับพื้นผิวหลายมิติ

    • การจัดกลุ่ม − การจัดกลุ่มช่วยในการระบุค่าผิดปกติ ค่าที่คล้ายกันจะถูกจัดเป็นกลุ่ม และค่าที่อยู่นอกคลัสเตอร์เรียกว่าค่าผิดปกติ

การแปลงข้อมูล − ในการแปลงข้อมูล ข้อมูลจะถูกแปลงหรือรวมเป็นรูปแบบที่เหมาะสมสำหรับการขุด การแปลงข้อมูลอาจเกี่ยวข้องกับสิ่งต่อไปนี้ -

  • ปรับให้เรียบ − มันสามารถทำงานเพื่อขจัดเสียงรบกวนจากข้อมูล เทคนิคดังกล่าวรวมถึงการ Binning การถดถอย และการจัดกลุ่ม

  • การรวม − ในการสรุปรวม ซึ่งการดำเนินการสรุปหรือการรวมจะถูกนำไปใช้กับข้อมูล

  • ลักษณะทั่วไป − ในลักษณะทั่วไป โดยที่ข้อมูลระดับต่ำหรือ "ดั้งเดิม" (ดิบ) ถูกกู้คืนโดยแนวคิดระดับใหญ่ผ่านการใช้ลำดับชั้นของแนวคิด

โหลด − มันสามารถจัดเรียง สรุป รวม คำนวณมุมมอง ตรวจสอบความสมบูรณ์ และสร้างดัชนีและพาร์ทิชัน

รีเฟรช - สามารถเผยแพร่การอัปเดตจากแหล่งข้อมูลไปยังคลังข้อมูลได้