การทำเหมืองข้อมูลเป็นกระบวนการในการค้นหาความสัมพันธ์ รูปแบบ และแนวโน้มใหม่ที่เป็นประโยชน์ โดยการถ่ายโอนข้อมูลจำนวนมากที่บันทึกไว้ในที่เก็บ โดยใช้เทคโนโลยีการจดจำรูปแบบ รวมทั้งเทคนิคทางสถิติและคณิตศาสตร์ เป็นการวิเคราะห์ชุดข้อมูลที่เป็นข้อเท็จจริงเพื่อค้นหาความสัมพันธ์ที่ไม่สงสัย และเพื่อสรุปบันทึกด้วยวิธีใหม่ที่มีทั้งเหตุผลและเป็นประโยชน์ต่อเจ้าของข้อมูล
ความท้าทายที่สำคัญคือการวิเคราะห์ข้อมูลเพื่อดึงข้อมูลสำคัญที่สามารถใช้ในการแก้ปัญหาหรือเพื่อการพัฒนาบริษัท มีเครื่องมือและเทคนิคแบบไดนามิกมากมายสำหรับขุดข้อมูลและค้นพบวิจารณญาณที่ดีขึ้นจากข้อมูลนี้
การทำเหมืองข้อมูลมีเทคนิคต่างๆ ดังนี้ -
การจำแนกประเภท − การจัดประเภทเป็นเทคนิคการทำเหมืองข้อมูลที่สร้างองค์ประกอบให้กับชุดข้อมูลเพื่อช่วยในการคาดการณ์และการวิเคราะห์ที่มีประสิทธิภาพมากขึ้น มีหลายวิธีในการสร้างการวิเคราะห์ชุดข้อมูลขนาดใหญ่ที่มีประสิทธิภาพ
การจัดประเภทเป็นหนึ่งในงานที่สำคัญที่สุดในการทำเหมืองข้อมูล หมายถึงกระบวนการกำหนดป้ายกำกับคลาสที่กำหนดไว้ล่วงหน้าให้กับอินสแตนซ์ตามแอตทริบิวต์ มีความคล้ายคลึงกันระหว่างการจัดหมวดหมู่และการจัดกลุ่ม ดูเหมือน แต่แตกต่างกัน ความแตกต่างที่สำคัญระหว่างการจัดประเภทและการจัดกลุ่มคือการจำแนกประเภทที่เกี่ยวข้องกับการปรับระดับขององค์ประกอบตามความเป็นสมาชิกในกลุ่มที่กำหนดไว้ล่วงหน้า
การจัดกลุ่ม − เฟสของการรวมชุดของอ็อบเจกต์ทางกายภาพหรือนามธรรมเข้าในคลาสของอ็อบเจ็กต์ที่คล้ายคลึงกันเรียกว่าคลัสเตอร์ คลัสเตอร์คือชุดของออบเจ็กต์ข้อมูลที่เหมือนกันภายในคลัสเตอร์เดียวกันและแตกต่างจากออบเจ็กต์ในคลัสเตอร์อื่น คลัสเตอร์ของออบเจ็กต์ข้อมูลสามารถพิจารณารวมกันเป็นกลุ่มเดียวในหลายแอปพลิเคชัน การวิเคราะห์คลัสเตอร์เป็นกิจกรรมที่สำคัญของมนุษย์
การถดถอย −วิธีการเหล่านี้ใช้เพื่อคาดการณ์ค่าของตัวแปรตอบสนอง (ขึ้นกับ) จากตัวแปรทำนาย (อิสระ) หนึ่งตัวหรือมากกว่า โดยที่ตัวแปรเป็นตัวเลข การถดถอยมีหลายรูปแบบ รวมถึงแบบเชิงเส้น แบบพหุคูณ แบบถ่วงน้ำหนัก พหุนาม ไม่มีพารามิเตอร์ และแบบทนทาน (เทคนิคที่มีประสิทธิภาพจะเป็นประโยชน์เมื่อข้อผิดพลาดไม่เป็นไปตามสภาวะปกติหรือเมื่อข้อมูลมีค่าผิดปกติที่มีนัยสำคัญ)
การตรวจจับภายนอก เทคนิคการทำเหมืองข้อมูลประเภทนี้เกี่ยวข้องกับการสังเกตรายการข้อมูลในชุดข้อมูลซึ่งไม่ตรงกับรูปแบบที่คาดหวังหรือพฤติกรรมที่คาดหวัง เทคนิคนี้อาจใช้ในโดเมนต่างๆ เช่น การบุกรุก การตรวจจับ การตรวจจับการฉ้อโกง ฯลฯ ซึ่งเรียกอีกอย่างว่า Outlier Analysis หรือ Outlier mining
รูปแบบต่อเนื่อง − รูปแบบตามลำดับคือเทคนิคการทำเหมืองข้อมูลที่เชี่ยวชาญสำหรับการคำนวณข้อมูลตามลำดับเพื่อค้นหารูปแบบที่ต่อเนื่องกัน ซึ่งรวมถึงการค้นหาลำดับย่อยที่น่าสนใจในคอลเลกชั่นของซีเควนซ์ ซึ่งสามารถวัดสเตคของซีเควนซ์ในแง่ขององค์ประกอบหลายอย่าง เช่น ความยาว ความถี่ที่เกิด ฯลฯ