Computer >> คอมพิวเตอร์ >  >> การเขียนโปรแกรม >> การเขียนโปรแกรม

การแปลงการทำเหมืองข้อมูลมีอะไรบ้าง?


การทำเหมืองข้อมูลเป็นกระบวนการในการค้นหาความสัมพันธ์ รูปแบบ และแนวโน้มใหม่ที่เป็นประโยชน์ โดยการถ่ายโอนข้อมูลจำนวนมากที่บันทึกไว้ในที่เก็บ โดยใช้เทคโนโลยีการจดจำรูปแบบ รวมทั้งเทคนิคทางสถิติและคณิตศาสตร์ เป็นการวิเคราะห์ชุดข้อมูลที่เป็นข้อเท็จจริงเพื่อค้นหาความสัมพันธ์ที่ไม่สงสัย และเพื่อสรุปบันทึกด้วยวิธีใหม่ที่มีทั้งเหตุผลและเป็นประโยชน์ต่อเจ้าของข้อมูล

การทำเหมืองข้อมูลมีการแปลงรูปแบบต่างๆ ดังนี้ -

แจ้งข้อเท็จจริงเรื่องปกติ ผิดปกติ นอกขอบเขต หรือเป็นไปไม่ได้ − การทำเครื่องหมายข้อเท็จจริงที่วัดได้ด้วยแฟล็กพิเศษอาจเป็นประโยชน์อย่างยิ่ง ข้อเท็จจริงที่วัดได้บางอย่างอาจถูกต้องแต่ผิดปกติอย่างมาก บางทีข้อเท็จจริงเหล่านี้อาจมาจากตัวอย่างเล็กๆ หรือสถานการณ์ที่เฉพาะเจาะจง

ข้อเท็จจริงอื่นๆ อาจมีอยู่ในข้อมูล แต่ต้องถือว่าเป็นไปไม่ได้หรืออธิบายไม่ได้ สำหรับแต่ละสถานการณ์เหล่านี้ เป็นการดีกว่าที่จะทำเครื่องหมายข้อมูลด้วยแฟล็กสถานะเพื่อให้สามารถจำกัดในหรือออกจากการวิเคราะห์ แทนที่จะลบค่าที่ผิดปกติออกจากตาราง

วิธีที่ดีในการจัดการกรณีเหล่านี้คือการสร้างมิติสถานะข้อมูลพิเศษสำหรับเร็กคอร์ดข้อเท็จจริง อาจต้องใช้มิตินี้เป็นข้อจำกัดและเพื่อกำหนดสถานะของข้อเท็จจริงแต่ละข้อ

รับรู้ค่าสุ่มหรือค่าเสียงรบกวนจากบริบทและปิดบัง − กรณีพิเศษของการเปลี่ยนแปลงก่อนหน้านี้คือการรับรู้เมื่อระบบเดิมให้ตัวเลขสุ่มมากกว่าความเป็นจริง สิ่งนี้สามารถเกิดขึ้นได้เมื่อไม่มีค่าที่ควรจะส่งโดยระบบเดิม แต่จำนวนที่เหลือในบัฟเฟอร์ถูกส่งผ่านไปยังคลังข้อมูล เมื่อระบุกรณีนี้แล้ว ควรคืนค่าตัวเลขสุ่มด้วยค่าว่าง

ใช้การรักษาแบบเดียวกันกับค่าว่าง − เครื่องมือขุดข้อมูลมีความอ่อนไหวต่อความแตกต่างระหว่าง "ไม่สามารถมีอยู่" และ "มีอยู่จริงแต่ไม่เป็นที่รู้จัก" ผู้เชี่ยวชาญด้านการทำเหมืองข้อมูลบางคนกำหนดค่าที่น่าจะเป็นไปได้หรือค่ามัธยฐานมากที่สุดในกรณีที่สอง เพื่อให้ส่วนที่เหลือของเรกคอร์ดตารางข้อเท็จจริงสามารถมีส่วนร่วมในการวิเคราะห์ได้

ซึ่งสามารถทำได้ทั้งในข้อมูลเดิมโดยเขียนทับค่า Null ด้วยค่าโดยประมาณ หรืออาจจัดการโดยเครื่องมือขุดข้อมูลที่ซับซ้อนซึ่งรู้วิธีประมวลผลข้อมูลว่างด้วยตัวเลือกการวิเคราะห์ต่างๆ

ตั้งค่าสถานะบันทึกข้อเท็จจริงด้วยสถานะที่เปลี่ยนแปลง การแปลงข้อมูลที่เป็นประโยชน์คือการเพิ่มตัวบ่งชี้สถานะพิเศษลงในเรกคอร์ดตารางข้อเท็จจริงเพื่อแสดงว่าสถานะของบัญชีนั้น (หรือลูกค้าหรือผลิตภัณฑ์หรือสถานที่ตั้ง) เพิ่งเปลี่ยนแปลงหรือกำลังจะเปลี่ยนแปลง ตัวบ่งชี้สถานะถูกนำมาใช้เป็นมิติสถานะในการออกแบบการรวมดาว