BeautifulSoup สามารถใช้แยกลิงก์ 'href' ออกจากเว็บไซต์ได้อย่างไร?

BeautifulSoup เป็นไลบรารี Python ของบุคคลที่สามที่ใช้ในการแยกวิเคราะห์ข้อมูลจากหน้าเว็บ ช่วยในการขูดเว็บ ซึ่งเป็นกระบวนการดึง ใช้ และจัดการข้อมูลจากแหล่งข้อมูลต่างๆ

การขูดเว็บยังสามารถใช้เพื่อดึงข้อมูลเพื่อวัตถุประสงค์ในการวิจัย ทำความเข้าใจ/เปรียบเทียบแนวโน้มของตลาด ตรวจสอบ SEO และอื่นๆ

บรรทัดด้านล่างสามารถเรียกใช้เพื่อติดตั้ง BeautifulSoup บน Windows -

pip install beautifulsoup4

ต่อไปนี้เป็นตัวอย่าง −

ตัวอย่าง

from bs4 import BeautifulSoup
import requests
url = "https://en.wikipedia.org/wiki/Algorithm"
req = requests.get(url)
soup = BeautifulSoup(req.text, "html.parser")
print("The href links are :")
for link in soup.find_all('a'):
   print(link.get('href'))

ผลลัพธ์

The href links are :
…
https://stats.wikimedia.org/#/en.wikipedia.org
https://foundation.wikimedia.org/wiki/Cookie_statement
https://wikimediafoundation.org/
https://www.mediawiki.org/

คำอธิบาย

แพ็คเกจที่จำเป็นถูกนำเข้าและใช้นามแฝง
มีการกำหนดเว็บไซต์
url เปิดขึ้นและอ่านข้อมูลจากมัน
ฟังก์ชัน 'BeautifulSoup' ใช้เพื่อดึงข้อความจากหน้าเว็บ
ฟังก์ชัน "find_all" ใช้เพื่อดึงข้อความจากข้อมูลหน้าเว็บ
ลิงก์ href จะพิมพ์อยู่บนคอนโซล