ในการแปลงข้อมูล ข้อมูลจะถูกแปลงหรือเชื่อมโยงเป็นรูปแบบที่ใช้กับการขุด การแปลงข้อมูลสามารถมีสิ่งต่อไปนี้ -
-
ปรับให้เรียบ − มันสามารถทำงานเพื่อขจัดเสียงรบกวนจากข้อมูล เทคนิคดังกล่าวรวมถึงการ Binning การถดถอย และการจัดกลุ่ม
-
การรวม − ในการสรุปรวม ซึ่งการดำเนินการสรุปหรือการรวมจะถูกนำไปใช้กับข้อมูล
-
ลักษณะทั่วไป − ในลักษณะทั่วไป โดยที่ข้อมูลระดับต่ำหรือ "ดั้งเดิม" (ดิบ) ถูกกู้คืนโดยแนวคิดระดับใหญ่ผ่านความต้องการลำดับชั้นของแนวคิด
มีบริการต่างๆ ของการแปลงข้อมูลดังนี้ −
บูรณาการ − การผสานรวมรวมถึงการสร้างคีย์ตัวแทน คีย์การแมปจากแบบแผนหนึ่งไปยังอีกแบบหนึ่ง และการแมปโปรแกรมลงในคำอธิบายที่สมบูรณ์ มีอำนาจโดยนัยในการสนับสนุนตารางค้นหาคีย์หลักที่อยู่เบื้องหลังการเปลี่ยนแปลงนี้
การซ่อมบำรุงมิติข้อมูลอย่างช้าๆ − มันสามารถระบุค่าที่เปลี่ยนแปลงได้ และการสร้างคีย์ตัวแทนนั้นเป็นกระบวนการที่ยุ่งยาก แต่ไม่ใช่คณิตศาสตร์แบบเว้นวรรค หากคุณซื้อเครื่องมือแสดงข้อมูล เครื่องมือควรมีอัลกอริทึมสำหรับจัดการมิติข้อมูลที่เปลี่ยนแปลงอย่างช้าๆ ในตัว
ดีนอร์มัลไลซ์และรีนอร์มอลไลเซชั่น − Denormalizing ลำดับชั้นของตารางแยกออกเป็นมิติเป็นกระบวนการเปลี่ยนมาตรฐานของคลังสินค้า เครื่องมือจัดเตรียมข้อมูลบางตัวมีฟีเจอร์สคีมาแบบดาวที่ทำหน้าที่นี้โดยอัตโนมัติ ยิ่งไปกว่านั้น การดีนอร์มัลไลเซชันบางอย่างเกิดขึ้นในเฟสของตารางแฟคท์
ตัวอย่างเช่น สคีมาทางการเงินอาจมีมิติที่เป็นชนิดจำนวนเงิน โดยมีค่าตามจริง งบประมาณ หรือการคาดการณ์ ขึ้นอยู่กับระดับของรายละเอียดที่ระเบียนเหล่านี้มีอยู่ อาจเป็นการดีที่จะหมุนคอลัมน์นี้ออกเป็นแถวเดียวโดยมีจำนวนเงินเป็นดอลลาร์สามคอลัมน์ หนึ่งคอลัมน์สำหรับจำนวนเงินแต่ละประเภท
ทำความสะอาด แยกส่วน รวม/ล้าง − นี่เป็นปัญหาใหญ่สำหรับคลังข้อมูลหลายแห่ง โดยเฉพาะอย่างยิ่งที่เกี่ยวข้องกับหน่วยงานภายนอก เช่น ลูกค้า ธุรกิจ แพทย์ และผู้ป่วย เป็นกระบวนการที่ซับซ้อน แต่ผู้ขายหลายรายเสนอเครื่องมือและบริการสำหรับปัญหานี้โดยเฉพาะ
การแปลงประเภทข้อมูล − สิ่งนี้เกี่ยวข้องกับการแปลงระดับล่างเพื่อแปลงประเภทข้อมูลหรือรูปแบบหนึ่งไปเป็นอีกประเภทหนึ่ง มีตั้งแต่การแปลงชุดอักขระเมนเฟรมของ IBM EBCDIC เป็น ASCII ไปจนถึงการแปลงการแสดงวันที่ ตัวเลข และอักขระจากฐานข้อมูลหนึ่งไปยังอีกฐานข้อมูลหนึ่ง
การคำนวณ การได้มา การจัดสรร − นี่คือการเปลี่ยนแปลงเพื่อใช้กฎเกณฑ์ทางธุรกิจที่ได้รับการยอมรับในระหว่างขั้นตอนข้อกำหนด ตรวจสอบให้แน่ใจว่าเครื่องมือที่สามารถเลือกได้มีชุดฟังก์ชันที่ครบถ้วน ซึ่งรวมถึงการจัดการสตริง เลขคณิตวันที่และเวลา คำสั่งแบบมีเงื่อนไข และคณิตศาสตร์พื้นฐาน
การรวม − การรวมสามารถจัดการได้ในองค์ประกอบบางอย่างของกระบวนการโหลด ขึ้นอยู่กับทรัพยากรที่สามารถเข้าถึงได้ในขั้นตอนใด หากสามารถคำนวณการรวมเป็นองค์ประกอบของกระบวนการแยกหรือการแปลง ก็สามารถใช้เครื่องมืออย่างเช่น Syncsort โดยตรงกับเร็กคอร์ดแบบแฟลตได้ โปรแกรมอรรถประโยชน์เหล่านี้ได้รับการพัฒนาสำหรับการจัดเรียงและการรายงานและใช้งานได้ดี