การทำเหมืองข้อมูลเป็นขั้นตอนของการค้นหาความสัมพันธ์ รูปแบบ และแนวโน้มใหม่ที่เป็นประโยชน์ โดยการถ่ายโอนผ่านระเบียนจำนวนมากที่บันทึกไว้ในที่เก็บ โดยใช้เทคโนโลยีการจดจำรูปแบบ รวมทั้งเทคนิคทางสถิติและตัวเลข เป็นการวิเคราะห์ชุดข้อมูลที่เป็นข้อเท็จจริงเพื่อค้นหาความสัมพันธ์ที่ไม่สงสัย และเพื่อสรุปบันทึกด้วยวิธีใหม่ที่มีทั้งเหตุผลและเป็นประโยชน์ต่อเจ้าของข้อมูล
เป็นขั้นตอนของการคัดเลือก สำรวจ และจำลองข้อมูลปริมาณมากเพื่อค้นหาความสม่ำเสมอหรือความสัมพันธ์ที่ไม่เคยทราบมาก่อนเพื่อให้ได้ผลลัพธ์ที่ชัดเจนและเป็นประโยชน์สำหรับเจ้าของฐานข้อมูล
การทำเหมืองข้อมูลคล้ายกับวิทยาศาสตร์ข้อมูล ดำเนินการโดยบุคคลในสถานการณ์เฉพาะในชุดข้อมูลเฉพาะโดยมีวัตถุประสงค์ เฟสนี้มีฟังก์ชันหลายประเภท เช่น การทำเหมืองข้อความ การทำเหมืองเว็บ การทำเหมืองข้อมูลเสียงและวิดีโอ การทำเหมืองข้อมูลเชิงพรรณนา และการทำเหมืองโซเชียลมีเดีย เสร็จสมบูรณ์ผ่านซอฟต์แวร์ที่เรียบง่ายหรือเฉพาะเจาะจงอย่างมาก
การทำเหมืองข้อมูลโดยเอาต์ซอร์ซ ทำให้งานทั้งหมดสามารถทำได้เร็วขึ้นด้วยต้นทุนการดำเนินงานที่ต่ำ บริษัทเฉพาะยังสามารถใช้เทคโนโลยีใหม่ในการบันทึกข้อมูลที่ไม่สามารถค้นหาด้วยตนเองได้ มีข้อมูลมากมายบนหลายแพลตฟอร์ม แต่เข้าถึงความรู้ที่จำกัดได้มาก
ความท้าทายที่สำคัญคือการวิเคราะห์ข้อมูลเพื่อดึงข้อมูลสำคัญที่สามารถใช้ในการแก้ปัญหาหรือเพื่อการพัฒนาบริษัท มีเครื่องมือและเทคนิคแบบไดนามิกมากมายในการขุดข้อมูลและค้นพบวิจารณญาณที่ดีขึ้นจากข้อมูลนี้
หน้าที่ของการขุด itemset บ่อยครั้งนั้นซับซ้อนเพราะเป็นการยากที่จะหาความสัมพันธ์ที่แน่นแฟ้นระหว่างรายการข้อมูลที่วิธีการนามธรรมในระดับต่ำหรือดั้งเดิม เนื่องจากข้อมูลที่กระจัดกระจายในพื้นที่หลายมิติ
ความสัมพันธ์ที่แน่นแฟ้นพบได้ในระดับแนวคิดระดับสูงที่สามารถแสดงถึงความรู้ทั่วไป แต่สิ่งที่สามารถแสดงถึงสามัญสำนึกต่อผู้ใช้รายหนึ่งอาจดูเหมือนใหม่สำหรับผู้ใช้อีกราย ดังนั้นจึงจำเป็นที่การทำเหมืองข้อมูลควรให้ความเป็นไปได้ในการสร้างกฎการเชื่อมโยงที่หลายระดับของ abstractions และ pass-through ระหว่างช่องว่างหลาย ๆ ที่เป็นนามธรรม
มีเหตุผลดังต่อไปนี้ที่ทำให้การขุดชุดไอเท็มบ่อยครั้งทำได้ยาก
-
การคำนวณที่จำเป็นในการสร้างกฎการเชื่อมโยงจะเพิ่มขึ้นแบบทวีคูณด้วยจำนวนรายการและความซับซ้อนของกฎที่กำลังพิจารณา
-
รายการจะถือว่าเหมือนกัน ยกเว้นคุณลักษณะที่ระบุหนึ่งรายการ รวมทั้งประเภทผลิตภัณฑ์ ไม่ใช่ปัญหาทั้งหมดที่เหมาะกับคำอธิบายนี้
-
งานที่ยากที่สุดคือการกำหนดชุดรายการที่ถูกต้องเพื่อใช้ในการวิเคราะห์ ด้วยการสรุปรายการ เราสามารถมั่นใจได้ว่าความถี่ของรายการที่ใช้ในการวิเคราะห์มีความใกล้เคียงกัน
-
เป็นการยากที่จะสร้างกฎการเชื่อมโยงเมื่อมีรายการที่ไม่ค่อยเกิดขึ้นในธุรกรรมน้อยมาก