BeautifulSoup เป็นไลบรารี Python ของบุคคลที่สามที่ใช้ในการแยกวิเคราะห์ข้อมูลจากหน้าเว็บ ช่วยในการขูดเว็บ ซึ่งเป็นกระบวนการดึง ใช้ และจัดการข้อมูลจากแหล่งข้อมูลต่างๆ
การขูดเว็บยังสามารถใช้เพื่อดึงข้อมูลเพื่อวัตถุประสงค์ในการวิจัย ทำความเข้าใจ/เปรียบเทียบแนวโน้มของตลาด ตรวจสอบ SEO และอื่นๆ
บรรทัดด้านล่างสามารถเรียกใช้เพื่อติดตั้ง BeautifulSoup บน Windows -
pip install beautifulsoup4
ต่อไปนี้เป็นตัวอย่าง −
ตัวอย่าง
from bs4 import BeautifulSoup import requests url = "https://en.wikipedia.org/wiki/Algorithm" req = requests.get(url) soup = BeautifulSoup(req.text, "html.parser") print("The href links are :") for link in soup.find_all('a'): print(link.get('href'))
ผลลัพธ์
The href links are : … https://stats.wikimedia.org/#/en.wikipedia.org https://foundation.wikimedia.org/wiki/Cookie_statement https://wikimediafoundation.org/ https://www.mediawiki.org/
คำอธิบาย
-
แพ็คเกจที่จำเป็นถูกนำเข้าและใช้นามแฝง
-
มีการกำหนดเว็บไซต์
-
url เปิดขึ้นและอ่านข้อมูลจากมัน
-
ฟังก์ชัน 'BeautifulSoup' ใช้เพื่อดึงข้อความจากหน้าเว็บ
-
ฟังก์ชัน "find_all" ใช้เพื่อดึงข้อความจากข้อมูลหน้าเว็บ
-
ลิงก์ href จะพิมพ์อยู่บนคอนโซล