Computer >> คอมพิวเตอร์ >  >> การเขียนโปรแกรม >> การเขียนโปรแกรม

องค์ประกอบของโปรแกรมรวบรวมข้อมูลเว็บที่เน้นมีอะไรบ้าง


มีองค์ประกอบต่าง ๆ ของโปรแกรมรวบรวมข้อมูลเว็บที่เน้นซึ่งมีดังนี้ -

เครื่องตรวจจับเมล็ดพันธุ์ − บริการของตัวตรวจจับ Seed คือการตัดสิน URL เริ่มต้นสำหรับคำหลักที่แน่นอนโดยการดึง n URL แรก หน้าเริ่มต้นจะถูกระบุและกำหนดลำดับความสำคัญขึ้นอยู่กับอัลกอริธึม PageRank หรืออัลกอริธึม Hit หรืออัลกอริธึมเดียวกัน

ตัวจัดการโปรแกรมรวบรวมข้อมูล − Crawler Manager เป็นส่วนประกอบสำคัญของระบบหลังจาก Hypertext Analyzer ส่วนประกอบดาวน์โหลดไฟล์จากเว็บทั่วโลก URL ในที่เก็บ URL จะถูกดึงและสร้างไปยังบัฟเฟอร์ใน Crawler Manager

บัฟเฟอร์ URL เป็นคิวลำดับความสำคัญ ขึ้นอยู่กับขนาดของบัฟเฟอร์ URL Crawler Manager สร้างอินสแตนซ์สำหรับโปรแกรมรวบรวมข้อมูลแบบไดนามิก ซึ่งจะดาวน์โหลดไฟล์

เพื่อประสิทธิภาพที่มากขึ้น ผู้จัดการโปรแกรมรวบรวมข้อมูลสามารถสร้างพูลโปรแกรมรวบรวมข้อมูลได้ ผู้จัดการยังรับผิดชอบในการจำกัดความเร็วของโปรแกรมรวบรวมข้อมูลและสร้างสมดุลระหว่างโหลดระหว่างกัน เสร็จสิ้นโดยการตรวจสอบโปรแกรมรวบรวมข้อมูล

โปรแกรมรวบรวมข้อมูล − โปรแกรมรวบรวมข้อมูลเป็นโค้ด Java แบบมัลติเธรด ซึ่งเพียงพอสำหรับการดาวน์โหลดหน้าเว็บจากเว็บและบันทึกไฟล์ในที่เก็บเอกสาร โปรแกรมรวบรวมข้อมูลทุกรายการมีคิว ซึ่งส่งผลต่อรายการ URL ที่จะรวบรวมข้อมูล โปรแกรมรวบรวมข้อมูลดึง URL จากคิว

โปรแกรมรวบรวมข้อมูลที่แตกต่างกันจะแชร์คำขอไปยังเซิร์ฟเวอร์ที่คล้ายกัน ดังนั้นการส่งคำขอไปยังเซิร์ฟเวอร์ที่คล้ายกันจะส่งผลให้เซิร์ฟเวอร์ทำงานหนักเกินไป เซิร์ฟเวอร์กำลังทำงานในการดำเนินการตามคำขอที่ต้องปรากฏจากโปรแกรมรวบรวมข้อมูลที่แชร์คำขอและรอคอยการตอบกลับ

เซิร์ฟเวอร์ถูกสร้างขึ้นแบบซิงโครไนซ์ หากไม่ได้แชร์คำขอสำหรับ URL ก่อนหน้านี้ คำขอจะถูกส่งต่อไปยังโครงสร้าง HTTP ซึ่งจะทำให้โปรแกรมรวบรวมข้อมูลไม่โอเวอร์โหลดเซิร์ฟเวอร์บางเครื่อง

ตัวแยกลิงก์ − ตัวแยกลิงก์มาจากการเชื่อมต่อจากไฟล์ที่มีอยู่ในที่เก็บเอกสาร คอมโพเนนต์จะทดสอบ URL ที่อยู่ใน URL ที่ดึงมา หากไม่พบ ระบบจะแยกข้อความที่อยู่รอบข้างที่อยู่ก่อนหน้าและต่อจากไฮเปอร์ลิงก์ ส่วนหัวหรือหัวข้อย่อยที่มีการเชื่อมต่ออยู่

ตัววิเคราะห์ไฮเปอร์เท็กซ์ − Hypertext Analyzer รับคำหลักจาก Link Extractor และค้นพบความเกี่ยวข้องของวิธีการด้วยคำค้นหาที่กำหนดลำดับชั้นอนุกรมวิธาน

โมดูลโปรโตคอล HTTP − HTTP Protocol Module แบ่งปันคำขอสำหรับไฟล์ที่ URL ได้รับการยอมรับจากคิว เมื่อได้รับเอกสารแล้ว URL ของเอกสารที่ดาวน์โหลดจะถูกเก็บไว้ใน URL ที่ดึงมาพร้อมกับการประทับเวลาและเอกสารจะถูกเก็บไว้ในที่เก็บเอกสาร