Computer >> คอมพิวเตอร์ >  >> การเขียนโปรแกรม >> การเขียนโปรแกรม

เราจะใช้ฮับเพจเพื่อค้นหาเพจที่เชื่อถือได้ได้อย่างไร


ฮับคือชุดของเว็บเพจที่สนับสนุนชุดของลิงก์ไปยังหน่วยงาน ฮับเพจต้องไม่เด่นชัด หรือมีบางลิงก์ที่ชี้ไปยังหน้าดังกล่าว อย่างไรก็ตาม รองรับลิงก์ไปยังชุดของเว็บไซต์ที่โดดเด่นในหัวข้อทั่วไป

หน้าดังกล่าวอาจเป็นรายการของคนรู้จักที่แนะนำในโฮมเพจเดียว รวมถึงไซต์อ้างอิงที่แนะนำจากโฮมเพจของหลักสูตร หรือเอกสารทรัพยากรจำนวนมากอย่างมืออาชีพบนไซต์เชิงพาณิชย์ หน้าศูนย์กลางมีบทบาทสำคัญในการหารือกับหน่วยงานโดยปริยายในหัวข้อที่เป็นเป้าหมาย

โดยทั่วไป ศูนย์กลางที่ดีคือหน้าที่ชี้ไปยังหน่วยงานที่ดีหลายแห่ง อำนาจที่ดีคือหน้าที่ของฮับที่ดีหลายแห่งระบุ ความสัมพันธ์ที่ส่งเสริมซึ่งกันและกันระหว่างฮับและหน่วยงานต่างๆ ดังกล่าวสนับสนุนการขุดหน้าเว็บที่เชื่อถือได้ และการค้นพบสถาปัตยกรรมและทรัพยากรของเว็บคุณภาพสูงโดยอัตโนมัติ

อัลกอริธึมที่ใช้ฮับที่เรียกว่า HITS (Hyperlink-Induced Topic Search) ได้จัดทำขึ้นดังนี้ อันดับแรก HITS ต้องการคำที่ใช้ค้นหาเพื่อรวบรวมชุดเริ่มต้น เช่น 200 หน้าจากเครื่องมือค้นหาแบบดัชนี หน้าเหล่านี้ออกแบบชุดหลัก

เนื่องจากหลายหน้าน่าจะเกี่ยวข้องกับหัวข้อที่ค้นหา บางหน้าจึงควรมีลิงก์ไปยังหน่วยงานที่โดดเด่นส่วนใหญ่ ดังนั้น ชุดหลักสามารถขยายเป็นชุดฐานได้ โดยเกี่ยวข้องกับหน้าที่บางหน้าที่เชื่อมโยงไปยังหน้าชุดหลัก และบางหน้าที่เชื่อมโยงไปยังหน้าในชุดหลัก จนถึงขนาดตัดที่กำหนดรวม 1,000 ถึง 5,000 หน้า (ให้อยู่ในชุดฐาน)

ประการที่สอง กระบวนการขยายพันธุ์น้ำหนักเริ่มต้นขึ้น ระยะวนซ้ำนี้ตัดสินการประมาณการทางสถิติของน้ำหนักศูนย์กลางและอำนาจ มีลิงค์ระหว่างสองเพจที่มีโดเมนเว็บคล้ายกัน (เช่น การส่ง URL ระดับแรกเหมือนกัน) ทำหน้าที่เป็นบริการนำทาง ดังนั้นจึงไม่มอบอำนาจ ลิงก์ดังกล่าวไม่ได้รับอนุญาตจากการวิเคราะห์การขยายพันธุ์

อัลกอริธึม PageRank ของ Google ขึ้นอยู่กับหลักการเดียวกัน จากการสำรวจลิงก์ของเว็บและข้อมูลบริบทที่เป็นข้อความ มีการบันทึกว่าระบบดังกล่าวสามารถรับผลการค้นหาที่มีคุณภาพดีกว่าที่สร้างขึ้นโดยเอ็นจิ้นดัชนีคำ เช่น AltaVista และที่สร้างขึ้นโดยออนโทโลยีมนุษย์รวมถึงที่ Yahoo!

อัลกอริธึมการวิเคราะห์ลิงค์ขึ้นอยู่กับสมมติฐานสองข้อต่อไปนี้ ขั้นแรก ลิงก์จะส่งการรับรองจากมนุษย์ หากมีลิงก์จากหน้า A ไปยังหน้า B และสองหน้านี้ถูกเขียนขึ้นโดยบุคคลหลายคน ลิงก์ดังกล่าวจะถือว่าผู้เขียนหน้า A พบว่าหน้า B มีค่า ดังนั้นความสำคัญของหน้าจึงสามารถยกไปยังหน้าที่เชื่อมโยงไปถึงได้ ประการที่สอง หน้าที่อ้างอิงร่วมกันโดยหน้าใดหน้าหนึ่งมักจะเกี่ยวข้องกับเรื่องเดียวกัน