การขุดเว็บกำหนดกระบวนการของการใช้เทคนิคการทำเหมืองข้อมูลเพื่อดึงแนวโน้มรูปแบบที่เป็นประโยชน์และข้อมูลโดยทั่วไปด้วยความช่วยเหลือของเว็บโดยจัดการกับมันจากบันทึกและบริการบนเว็บ บันทึกของเซิร์ฟเวอร์และไฮเปอร์ลิงก์ เป้าหมายหลักของการขุดเว็บคือการค้นหาการออกแบบในข้อมูลเว็บโดยการรวบรวมและวิเคราะห์ข้อมูลเพื่อรับข้อมูลเชิงลึกที่สำคัญ
การทำเหมืองข้อมูลบนเว็บสามารถมองได้อย่างกว้างขวางว่าเป็นการนำวิธีการทำเหมืองข้อมูลมาปรับใช้กับเว็บ ในขณะที่การทำเหมืองข้อมูลจะแสดงเป็นการใช้อัลกอริทึมเพื่อค้นหารูปแบบในข้อมูลที่มีโครงสร้างเป็นส่วนใหญ่ซึ่งได้รับการแก้ไขในกระบวนการค้นหาความรู้
การทำเหมืองเว็บมีคุณสมบัติที่โดดเด่นเพื่อรองรับการรวบรวมข้อมูลหลายประเภท เว็บมีหลายแง่มุมที่ให้แนวทางที่หลากหลายสำหรับกระบวนการขุด เช่น หน้าเว็บรวมถึงข้อความ หน้าเว็บเชื่อมต่อผ่านไฮเปอร์ลิงก์ และกิจกรรมของผู้ใช้สามารถตรวจสอบได้ผ่านบันทึกของเว็บเซิร์ฟเวอร์
การขุดเว็บมีหลายประเภทดังนี้ -
การขุดเนื้อหาเว็บ − การขุดเนื้อหาเว็บเป็นขั้นตอนของ Web Mining ซึ่งดึงข้อมูลคำอธิบายที่จำเป็นจากเว็บไซต์ (WWW) เนื้อหาเกี่ยวข้องกับเสียง วิดีโอ เอกสารข้อความ ไฮเปอร์ลิงก์ และบันทึกที่มีโครงสร้าง เนื้อหาเว็บออกแบบมาเพื่อส่งบันทึกไปยังผู้ใช้ในการออกแบบข้อความ รายการ รูปภาพ วิดีโอ และตาราง
หน้าที่ของการขุดเนื้อหาคือการดึงข้อมูล โดยที่ข้อมูลที่มีโครงสร้างจะถูกคัดลอกจากเว็บไซต์ที่ไม่มีโครงสร้าง เป้าหมายคือเพื่อรองรับการรวมข้อมูลในหลายเว็บไซต์โดยใช้ข้อมูลที่มีโครงสร้างที่แยกออกมา
การขุดโครงสร้างเว็บ − การขุดโครงสร้างเว็บเป็นหนึ่งในเทคนิคหลักของการทำเหมืองเว็บที่เกี่ยวข้องกับโครงสร้างไฮเปอร์ลิงก์ การขุดโครงสร้างจะแสดงสรุปโครงสร้างของเว็บไซต์เป็นหลัก รับรู้ความสัมพันธ์ระหว่างหน้าเว็บที่เชื่อมโยงของเว็บไซต์
การขุดเว็บเป็นเพียงการขุดข้อมูลที่ขุดข้อมูลจากเว็บ มีการใช้เทคนิคอัลกอริธึมหลายอย่างเพื่อค้นหาข้อมูลจากเว็บ การขุดโครงสร้างจะวิเคราะห์ไฮเปอร์ลิงก์ของเว็บไซต์เพื่อรวบรวมบันทึกข้อมูลและจัดเรียงข้อมูลในองค์ประกอบต่างๆ เช่น ความคล้ายคลึงและความสัมพันธ์ Intra-page เป็นประเภทของการขุดที่ดำเนินการในระดับเอกสารและการขุดระดับไฮเปอร์ลิงก์เรียกว่าการขุดระหว่างหน้า
การขุดการใช้งานเว็บ − การขุดการใช้เว็บใช้เพื่อดึงบันทึก ข้อมูล ความรู้จากข้อมูลบล็อกที่มีประโยชน์ และช่วยในการระบุรูปแบบการเข้าถึงของผู้ใช้สำหรับหน้าเว็บ
ในการขุด การใช้ทรัพยากรบนเว็บ แต่ละคนกำลังคิดเกี่ยวกับบันทึกคำขอของผู้เยี่ยมชมเว็บไซต์ที่มักถูกรวบรวมเป็นบันทึกของเว็บเซิร์ฟเวอร์ แม้ว่าเนื้อหาและสถาปัตยกรรมของชุดของหน้าเว็บจะเป็นไปตามความตั้งใจของผู้เขียนหน้าเว็บ คำขอเดียวจะแสดงให้เห็นว่าผู้ใช้ดูหน้าเว็บเหล่านี้อย่างไร การขุดการใช้เว็บอาจเปิดเผยความสัมพันธ์ที่ไม่ได้เสนอโดยผู้สร้างเพจ