Computer >> คอมพิวเตอร์ >  >> การเขียนโปรแกรม >> Python

จะแยกชื่อจากหน้าเว็บโดยใช้ BeautifulSoup ได้อย่างไร


BeautifulSoup เป็นไลบรารี Python ของบุคคลที่สามที่ใช้ในการแยกวิเคราะห์ข้อมูลจากหน้าเว็บ ช่วยนักพัฒนาในแอปพลิเคชันการประมวลผลภาษาธรรมชาติ ช่วยวิเคราะห์ข้อมูล และดึงความหมายจากข้อมูลเชิงลึก

Natural Language Processing หรือ NLP เป็นส่วนหนึ่งของแมชชีนเลิร์นนิงที่เกี่ยวข้องกับข้อมูลข้อความและวิธีการประมวลผลล่วงหน้าเพื่อป้อนเป็นอินพุตสำหรับปัญหาแมชชีนเลิร์นนิง

การขูดเว็บยังสามารถใช้เพื่อดึงข้อมูลเพื่อวัตถุประสงค์ในการวิจัย ทำความเข้าใจ/เปรียบเทียบแนวโน้มของตลาด ตรวจสอบ SEO และอื่นๆ

บรรทัดด้านล่างสามารถเรียกใช้เพื่อติดตั้ง BeautifulSoup บน Windows -

pip install beautifulsoup4

ต่อไปนี้เป็นตัวอย่าง −

ตัวอย่าง

from bs4 import BeautifulSoup
import requests
url = "https://en.wikipedia.org/wiki/Algorithm"
req = requests.get(url)
soup = BeautifulSoup(req.text, "html.parser")
print("The titles are :")
print(soup.title)

ผลลัพธ์

The titles are :
<title>Algorithm − Wikipedia

คำอธิบาย

  • แพ็คเกจที่จำเป็นนั้นนำเข้ามาและใช้นามแฝง

  • มีการกำหนดเว็บไซต์

  • url เปิดขึ้นและอ่านข้อมูลจากมัน

  • ฟังก์ชัน 'BeautifulSoup' ใช้เพื่อดึงข้อความจากหน้าเว็บ

  • ชื่อเรื่องถูกดึงออกมาโดยใช้แอตทริบิวต์ "ชื่อ"

  • ชื่อเรื่องจะพิมพ์อยู่บนคอนโซล