Computer >> คอมพิวเตอร์ >  >> การเขียนโปรแกรม >> Python

แพ็คเกจ BeautifulSoup สามารถใช้แยกชื่อโดเมนของเว็บไซต์ใน Python ได้อย่างไร


BeautifulSoup เป็นไลบรารี Python ของบุคคลที่สามที่ใช้ในการแยกวิเคราะห์ข้อมูลจากหน้าเว็บ ช่วยในการขูดเว็บ ซึ่งเป็นกระบวนการดึง ใช้ และจัดการข้อมูลจากแหล่งข้อมูลต่างๆ นอกจากนี้ยังช่วยนักพัฒนาในแอปพลิเคชันการประมวลผลภาษาธรรมชาติ ช่วยวิเคราะห์ข้อมูล และดึงข้อมูลเชิงลึกที่มีความหมายออกมา

Natural Language Processing หรือ NLP เป็นส่วนหนึ่งของแมชชีนเลิร์นนิงที่เกี่ยวข้องกับข้อมูลข้อความและวิธีการประมวลผลล่วงหน้าเพื่อป้อนเป็นอินพุตสำหรับปัญหาแมชชีนเลิร์นนิง

การขูดเว็บยังสามารถใช้เพื่อดึงข้อมูลเพื่อวัตถุประสงค์ในการวิจัย ทำความเข้าใจ/เปรียบเทียบแนวโน้มของตลาด ตรวจสอบ SEO และอื่นๆ

บรรทัดด้านล่างสามารถเรียกใช้เพื่อติดตั้ง BeautifulSoup บน Windows -

ตัวอย่าง

pip install beautifulsoup4
import requests
from bs4 import BeautifulSoup
from urllib.request import urlopen
import urllib

url = 'https://en.wikipedia.org/wiki/Algorithm'
parsed_uri = urllib.request.urlparse(url)
domainName = '{uri.scheme}://{uri.netloc}/'.format(uri=parsed_uri)
print("The domain name is : ")
print(domainName)

ผลลัพธ์

The domain name is :
https://en.wikipedia.org/

คำอธิบาย

  • แพ็คเกจที่จำเป็นนั้นนำเข้ามาและใช้นามแฝง

  • มีการกำหนดเว็บไซต์

  • ชื่อโดเมนถูกกำหนดโดยใช้ฟังก์ชัน 'netloc' และ 'scheme'

  • ฟังก์ชัน 'urlparse' ถูกเรียกเพื่อรับชื่อโดเมน

  • ชื่อโดเมนพิมพ์อยู่บนคอนโซล