BeautifulSoup เป็นไลบรารี Python ของบุคคลที่สามที่ใช้ในการแยกวิเคราะห์ข้อมูลจากหน้าเว็บ ช่วยนักพัฒนาในแอปพลิเคชันการประมวลผลภาษาธรรมชาติ ช่วยวิเคราะห์ข้อมูล และดึงความหมายจากข้อมูลเชิงลึก
Natural Language Processing หรือ NLP เป็นส่วนหนึ่งของแมชชีนเลิร์นนิงที่เกี่ยวข้องกับข้อมูลข้อความและวิธีการประมวลผลล่วงหน้าเพื่อป้อนเป็นอินพุตสำหรับปัญหาแมชชีนเลิร์นนิง
การขูดเว็บยังสามารถใช้เพื่อดึงข้อมูลเพื่อวัตถุประสงค์ในการวิจัย ทำความเข้าใจ/เปรียบเทียบแนวโน้มของตลาด ตรวจสอบ SEO และอื่นๆ
บรรทัดด้านล่างสามารถเรียกใช้เพื่อติดตั้ง BeautifulSoup บน Windows -
pip install beautifulsoup4
ต่อไปนี้เป็นตัวอย่าง −
ตัวอย่าง
from bs4 import BeautifulSoup import requests url = "https://en.wikipedia.org/wiki/Algorithm" req = requests.get(url) soup = BeautifulSoup(req.text, "html.parser") print("The titles are :") print(soup.title)
ผลลัพธ์
The titles are : <title>Algorithm − Wikipedia
คำอธิบาย
-
แพ็คเกจที่จำเป็นนั้นนำเข้ามาและใช้นามแฝง
-
มีการกำหนดเว็บไซต์
-
url เปิดขึ้นและอ่านข้อมูลจากมัน
-
ฟังก์ชัน 'BeautifulSoup' ใช้เพื่อดึงข้อความจากหน้าเว็บ
-
ชื่อเรื่องถูกดึงออกมาโดยใช้แอตทริบิวต์ "ชื่อ"
-
ชื่อเรื่องจะพิมพ์อยู่บนคอนโซล