Computer >> คอมพิวเตอร์ >  >> การเขียนโปรแกรม >> Python

แพ็คเกจ BeautifulSoup สามารถใช้แยกวิเคราะห์ข้อมูลจากหน้าเว็บใน Python ได้อย่างไร


BeautifulSoup เป็นไลบรารี Python ของบุคคลที่สามที่ใช้ในการแยกวิเคราะห์ข้อมูลจากหน้าเว็บ ช่วยในการขูดเว็บ ซึ่งเป็นกระบวนการดึง ใช้ และจัดการข้อมูลจากแหล่งข้อมูลต่างๆ

การขูดเว็บยังสามารถใช้เพื่อดึงข้อมูลเพื่อวัตถุประสงค์ในการวิจัย ทำความเข้าใจ/เปรียบเทียบแนวโน้มของตลาด ตรวจสอบ SEO และอื่นๆ

บรรทัดด้านล่างสามารถเรียกใช้เพื่อติดตั้ง BeautifulSoup บน Windows -

pip install beautifulsoup4

เรามาดูตัวอย่างกัน −

ตัวอย่าง

import requests
from bs4 import BeautifulSoup
from urllib.request import urlopen
import urllib
url = 'https://en.wikipedia.org/wiki/Algorithm'
html = urlopen(url).read()
print("Reading the webpage...")
soup = BeautifulSoup(html, features="html.parser")
print("Parsing the webpage...")
for script in soup(["script", "style"]):
   script.extract() # rip it out
print("Extracting text from the webpage...")
text = soup.get_text()
print("Data cleaning...")
lines = (line.strip() for line in text.splitlines())
chunks = (phrase.strip() for line in lines for phrase in line.split(" "))
text = '\n'.join(chunk for chunk in chunks if chunk)
text = str(text)
print(text)

ผลลัพธ์

Reading the webpage...
Parsing the webpage...
Extracting text from the webpage...
Data cleaning...
Recursive C implementation of Euclid's algorithm from the above flowchart
Recursion
A recursive algorithm is one that invokes (makes reference to) itself repeatedly until a certain condition (also known as termination condition) matches, which is a method common to functional programming….
…..
Developers
Statistics
Cookie statement

คำอธิบาย

  • แพ็คเกจที่จำเป็นถูกนำเข้าและใช้นามแฝง

  • มีการกำหนดเว็บไซต์

  • เปิด URL และแท็ก "สคริปต์" และแท็ก HTML ที่ไม่เกี่ยวข้องอื่นๆ จะถูกลบออก

  • ฟังก์ชัน "get_text" ใช้เพื่อดึงข้อความจากข้อมูลหน้าเว็บ

  • ช่องว่างส่วนเกินและคำที่ไม่ถูกต้องจะถูกตัดออก

  • ข้อความถูกพิมพ์บนคอนโซล