Computer >> คอมพิวเตอร์ >  >> การเขียนโปรแกรม >> การเขียนโปรแกรม

การทำเหมืองข้อมูลมีขั้นตอนอย่างไรเมื่อถูกมองว่าเป็นกระบวนการค้นหาความรู้


KDD แสดงถึงการค้นพบความรู้ในฐานข้อมูล กำหนดกระบวนการกว้างๆ ในการค้นหาความรู้ในข้อมูลและเน้นการใช้งานระดับสูงของเทคนิคการทำเหมืองข้อมูลที่แน่นอน เป็นพื้นที่ที่น่าสนใจสำหรับนักวิจัยในหลายสาขา เช่น ปัญญาประดิษฐ์ แมชชีนเลิร์นนิง การจดจำรูปแบบ ฐานข้อมูล สถิติ การได้มาซึ่งความรู้สำหรับระบบมืออาชีพ และการแสดงข้อมูลเป็นภาพ

วัตถุประสงค์หลักของกระบวนการ KDD คือการดึงข้อมูลจากข้อมูลในบริบทของฐานข้อมูลขนาดใหญ่ ทำได้โดยใช้อัลกอริธึม Data Mining เพื่อรับรู้สิ่งที่ถือเป็นความรู้

การค้นพบความรู้ในฐานข้อมูลถือเป็นโปรแกรม การวิเคราะห์เชิงสำรวจ และการสร้างแบบจำลองของที่เก็บข้อมูลขนาดใหญ่ KDD เป็นกระบวนการที่เป็นระเบียบในการระบุการออกแบบที่ถูกต้อง มีประโยชน์ และเข้าใจได้จากชุดข้อมูลขนาดใหญ่และซับซ้อน

การทำเหมืองข้อมูลเป็นรากฐานของขั้นตอน KDD เช่น การอนุมานของอัลกอริทึมที่ตรวจสอบระเบียน พัฒนาแบบจำลอง และค้นพบรูปแบบที่ไม่รู้จักก่อนหน้านี้ แบบจำลองนี้ใช้สำหรับดึงความรู้จากข้อมูล วิเคราะห์ข้อมูล และทำนายข้อมูล

การทำเหมืองข้อมูลเป็นขั้นตอนในกระบวนการ KDD ซึ่งรวมถึงการใช้การวิเคราะห์ข้อมูลและอัลกอริธึมการค้นพบ ซึ่งภายใต้ข้อจำกัดด้านประสิทธิภาพในการคำนวณที่ยอมรับได้ จะทำการแจงนับเฉพาะรูปแบบ (หรือแบบจำลอง) เหนือข้อมูล

กระบวนการ KDD ประกอบด้วยการใช้ฐานข้อมูลพร้อมกับการเลือก การประมวลผลล่วงหน้า การสุ่มตัวอย่างย่อย และการแปลงข้อมูลที่จำเป็น ใช้วิธีการขุดข้อมูล (อัลกอริทึม) เพื่อระบุรูปแบบจากมัน และคำนวณผลิตภัณฑ์ของการทำเหมืองข้อมูลเพื่อรับรู้ส่วนย่อยของรูปแบบที่แจกแจงแล้วถือว่าเป็นความรู้

ขั้นตอนที่เกี่ยวข้องในกระบวนการค้นพบความรู้มีดังนี้ -

  • การเลือก − ข้อมูลที่จำเป็นสำหรับกระบวนการขุดข้อมูลถูกรวบรวมจากแหล่งต่างๆ ดังนั้น ขั้นตอนแรกคือการเลือกชุดข้อมูลหรือเน้นที่ชุดย่อยของตัวแปรหรือตัวอย่างข้อมูลที่จะใช้การค้นพบ
  • การล้างข้อมูลและการประมวลผลล่วงหน้า − ข้อมูลที่ใช้ในกระบวนการอาจมีค่าที่หายไปหรือไม่ถูกต้อง ดังนั้นการดำเนินการพื้นฐานรวมถึงการขจัดเสียงรบกวน การรวบรวมข้อมูลที่จำเป็นเพื่อสร้างแบบจำลองหรือบัญชีสำหรับเสียง การตัดสินใจเกี่ยวกับเทคนิคในการจัดการช่องข้อมูลที่ขาดหายไป และการบัญชีสำหรับลำดับเวลา ข้อมูลเสร็จสมบูรณ์ในขั้นตอนที่สองของกระบวนการ KDD
  • การแปลงข้อมูล − ขั้นตอนนี้รวมถึงการค้นหาคุณสมบัติที่เป็นประโยชน์เพื่อแสดงข้อมูลโดยขึ้นอยู่กับเป้าหมายของงาน ด้วยวิธีการลดขนาดหรือการแปลงมิติข้อมูล จำนวนตัวแปรที่มีประสิทธิภาพภายใต้การพิจารณาสามารถลดลงได้ หรือสามารถค้นพบการแสดงข้อมูลที่ไม่เปลี่ยนแปลงสำหรับข้อมูลได้
  • การขุดข้อมูล − ขึ้นอยู่กับงานการทำเหมืองข้อมูลที่กำลังดำเนินการ ขั้นตอนนี้ใช้อัลกอริธึมกับข้อมูลที่แปลงแล้ว ค้นหารูปแบบที่น่าสนใจในรูปแบบการแสดงแทนเฉพาะ หรือชุดของการแสดงข้อมูลเฉพาะ รวมถึงกฎการจัดหมวดหมู่หรือต้นไม้ การถดถอย และการจัดกลุ่ม
  • การตีความรูปแบบการขุด − ขั้นตอนนี้อาจเกี่ยวข้องกับการแสดงภาพรูปแบบและแบบจำลองที่แยกออกมา หรือการแสดงภาพข้อมูลที่กำหนดในแบบจำลองที่แยกออกมา