การทำเหมืองข้อมูลเป็นกระบวนการในการค้นหาความสัมพันธ์ รูปแบบ และแนวโน้มใหม่ที่เป็นประโยชน์ โดยการถ่ายโอนข้อมูลจำนวนมากที่บันทึกไว้ในที่เก็บ โดยใช้เทคโนโลยีการจดจำรูปแบบ รวมทั้งเทคนิคทางสถิติและคณิตศาสตร์ เป็นการวิเคราะห์ชุดข้อมูลที่เป็นข้อเท็จจริงเพื่อค้นหาความสัมพันธ์ที่ไม่สงสัย และเพื่อสรุปบันทึกด้วยวิธีใหม่ที่มีทั้งเหตุผลและเป็นประโยชน์ต่อเจ้าของข้อมูล
เป็นขั้นตอนของการคัดเลือก สำรวจ และจำลองข้อมูลปริมาณมากเพื่อค้นหาความสม่ำเสมอหรือความสัมพันธ์ที่ไม่เคยทราบมาก่อนเพื่อให้ได้ผลลัพธ์ที่ชัดเจนและเป็นประโยชน์สำหรับเจ้าของฐานข้อมูล
การทำเหมืองข้อมูลคล้ายกับวิทยาศาสตร์ข้อมูล ดำเนินการโดยบุคคลในสถานการณ์เฉพาะในชุดข้อมูลเฉพาะโดยมีวัตถุประสงค์ เฟสนี้ประกอบด้วยบริการหลายประเภท เช่น การทำเหมืองข้อความ การทำเหมืองเว็บ การทำเหมืองเสียงและวิดีโอ การทำเหมืองข้อมูลด้วยภาพ และการทำเหมืองโซเชียลมีเดีย เสร็จสมบูรณ์ผ่านซอฟต์แวร์ที่เรียบง่ายหรือเฉพาะเจาะจงอย่างมาก
การทำเหมืองข้อมูลโดยเอาต์ซอร์ซ ทำให้งานทั้งหมดสามารถทำได้เร็วขึ้นด้วยต้นทุนการดำเนินงานที่ต่ำ บริษัทเฉพาะยังสามารถใช้เทคโนโลยีใหม่ในการบันทึกข้อมูลที่ไม่สามารถค้นหาด้วยตนเองได้ มีข้อมูลมากมายบนหลายแพลตฟอร์ม แต่เข้าถึงความรู้ที่จำกัดได้มาก
แนวทางในการค้นหารูปแบบที่เป็นประโยชน์ในข้อมูลมีชื่อเรียกหลายชื่อ ซึ่งประกอบด้วยการทำเหมืองข้อมูล การดึงความรู้ การค้นพบข้อมูล การเก็บเกี่ยวข้อมูล โบราณคดีข้อมูล และการประมวลผลรูปแบบข้อมูล การขุดข้อมูลถูกใช้โดยนักสถิติ นักวิเคราะห์ข้อมูล และชุมชนระบบข้อมูลการจัดการ (MIS)
นอกจากนี้ยังได้ปรับปรุงความนิยมในพื้นที่ฐานข้อมูล กระบวนการค้นพบความรู้ในฐานข้อมูลถูกคิดค้นขึ้นในการประชุมเชิงปฏิบัติการ KDD ครั้งแรกในปี 1989 (Piatestsky-Shapiro 1991) เพื่อรักษาความรู้นั้นเป็นผลิตภัณฑ์สุดท้ายของการค้นพบที่ขับเคลื่อนด้วยข้อมูล ได้รับความนิยมในด้านปัญญาประดิษฐ์และแมชชีนเลิร์นนิง
KDD กำหนดกระบวนการที่สมบูรณ์ในการค้นหาความรู้ที่เป็นประโยชน์จากข้อมูล และการทำเหมืองข้อมูลจะกำหนดขั้นตอนเฉพาะในกระบวนการนี้ การทำเหมืองข้อมูลเป็นแอปพลิเคชั่นของอัลกอริธึมเฉพาะสำหรับการแยกรูปแบบออกจากข้อมูล ความแตกต่างระหว่างกระบวนการ KDD และขั้นตอนการขุดข้อมูล (ภายในกระบวนการ) เป็นจุดศูนย์กลางของวัตถุนี้
ขั้นตอนเพิ่มเติมในกระบวนการ KDD ซึ่งรวมถึงการเตรียมข้อมูล การเลือกข้อมูล การล้างข้อมูล การรวมความรู้เดิมที่เหมาะสม และการวิเคราะห์ผลลัพธ์ของการขุดอย่างเหมาะสม เป็นสิ่งสำคัญเพื่อให้ความรู้ที่เป็นประโยชน์เปลี่ยนจากข้อมูล
การประยุกต์ใช้เทคนิคการทำเหมืองข้อมูลแบบปิดบัง (ไม่ได้รับการอนุมัติอย่างถูกต้องเนื่องจากการขุดลอกข้อมูลในเอกสารทางสถิติ) อาจเป็นกิจกรรมที่อันตราย ซึ่งนำไปสู่การค้นพบการออกแบบที่ไม่มีความหมายและไม่ถูกต้องได้อย่างง่ายดาย