Computer >> คอมพิวเตอร์ >  >> การเขียนโปรแกรม >> การเขียนโปรแกรม

โปรแกรมรวบรวมข้อมูลเว็บที่มุ่งเน้นคืออะไร


โปรแกรมรวบรวมข้อมูลเว็บที่มุ่งเน้นคือระบบไฮเปอร์เท็กซ์ที่ตรวจสอบ รับ จัดทำดัชนี และสนับสนุนเพจในชุดหัวข้อที่ชัดเจนซึ่งกำหนดส่วนที่ค่อนข้างแคบของเว็บ ต้องใช้เงินลงทุนเพียงเล็กน้อยในฮาร์ดแวร์และทรัพยากรบนเว็บ แต่ยังจัดการความครอบคลุมที่น่านับถือด้วยอัตราที่รวดเร็ว เพียงเพราะมีค่อนข้างน้อยที่จะทำ

โปรแกรมรวบรวมข้อมูลเว็บที่มุ่งเน้นดำเนินการโดยตัวแยกประเภทที่เรียนรู้ที่จะระบุความเกี่ยวข้องจากตัวอย่างที่ฝังอยู่ในอนุกรมวิธานของหัวข้อ และตัวกลั่นกรองที่รู้จักจุดได้เปรียบเฉพาะบนอินเทอร์เน็ต

โปรแกรมรวบรวมข้อมูลเว็บที่มุ่งเน้นใช้เครื่องมือค้นหาแนวตั้งเพื่อรวบรวมข้อมูลหน้าเว็บเฉพาะสำหรับหัวข้อเป้าหมาย แต่ละหน้าที่ดึงมาจะถูกจัดประเภทเป็นหัวข้อเป้าหมายที่กำหนดไว้ล่วงหน้า หากระบบคาดคะเนหน้าว่าอยู่ในหัวข้อ ลิงก์ของหน้าจะถูกแยกและผนวกเข้ากับคิว URL

มิฉะนั้น กระบวนการรวบรวมข้อมูลจะไม่ดำเนินการต่อจากหน้านี้ โปรแกรมรวบรวมข้อมูลเว็บที่เน้นประเภทนี้เรียกว่าโปรแกรมรวบรวมข้อมูลเว็บที่เน้น "เต็มหน้า" เนื่องจากจัดประเภทเนื้อหาเต็มหน้า ในอีกความหมายหนึ่ง บริบทของการเชื่อมต่อทั้งหมดบนหน้าคือเนื้อหาแบบเต็มหน้า

โปรแกรมรวบรวมข้อมูลเว็บประเภทนี้สร้างการจัดทำดัชนีอย่างมีประสิทธิภาพมากขึ้นโดยตรง ช่วยให้เราบรรลุข้อกำหนดขั้นพื้นฐานในการดึงข้อมูลจากแหล่งเก็บข้อมูลขนาดใหญ่ของเวิลด์ไวด์เว็บได้เร็วและมีความเกี่ยวข้องมากขึ้น มีเสิร์ชเอ็นจิ้นหลายตัวเริ่มใช้วิธีนี้เพื่อให้ผู้ใช้ได้รับประสบการณ์ที่สมบูรณ์ยิ่งขึ้นในขณะที่สร้างเนื้อหาเว็บเพิ่มจำนวน Hit โดยตรง

ตัวจัดการโปรแกรมรวบรวมข้อมูลเป็นองค์ประกอบสำคัญของระบบที่ติดตาม Hypertext Analyzer ส่วนประกอบดาวน์โหลดไฟล์จากเว็บทั่วโลก URL ในที่เก็บ URL จะถูกกู้คืนและสร้างไปยังบัฟเฟอร์ใน Crawler Manager

บัฟเฟอร์ URL เป็นคิวลำดับความสำคัญ ขึ้นอยู่กับขนาดของบัฟเฟอร์ URL ตัวจัดการโปรแกรมรวบรวมข้อมูลจะสร้างอินสแตนซ์สำหรับโปรแกรมรวบรวมข้อมูลแบบไดนามิกซึ่งจะดาวน์โหลดไฟล์ เพื่อประสิทธิภาพที่มากขึ้น ผู้จัดการโปรแกรมรวบรวมข้อมูลสามารถสร้างพูลโปรแกรมรวบรวมข้อมูลได้ ผู้จัดการยังรับผิดชอบในการจำกัดความเร็วของโปรแกรมรวบรวมข้อมูลและสร้างสมดุลระหว่างโหลดระหว่างกัน เสร็จสิ้นโดยการตรวจสอบโปรแกรมรวบรวมข้อมูล

โปรแกรมรวบรวมข้อมูลเป็นโค้ด Java แบบมัลติเธรด ซึ่งเพียงพอสำหรับการดาวน์โหลดหน้าเว็บจากอินเทอร์เน็ตและบันทึกไฟล์ในที่เก็บเอกสาร โปรแกรมรวบรวมข้อมูลทุกรายการมีคิว ซึ่งส่งผลต่อไฟล์ URL ที่จะรวบรวมข้อมูล โปรแกรมรวบรวมข้อมูลกู้คืน URL จากคิว

โปรแกรมรวบรวมข้อมูลที่แตกต่างกันจะแชร์คำขอไปยังเซิร์ฟเวอร์เดียวกัน หากเป็นเช่นนั้น การส่งคำขอไปยังเซิร์ฟเวอร์ที่คล้ายกันจะส่งผลให้เซิร์ฟเวอร์ทำงานหนักเกินไป เซิร์ฟเวอร์กำลังทำงานในการดำเนินการตามคำขอที่ต้องปรากฏจากโปรแกรมรวบรวมข้อมูลที่แชร์คำขอและรอคอยการตอบกลับ