BeautifulSoup เป็นไลบรารี Python ของบุคคลที่สามที่ใช้ในการแยกวิเคราะห์ข้อมูลจากหน้าเว็บ ช่วยในการขูดเว็บ ซึ่งเป็นกระบวนการดึง ใช้ และจัดการข้อมูลจากแหล่งข้อมูลต่างๆ นอกจากนี้ยังช่วยนักพัฒนาในแอปพลิเคชันการประมวลผลภาษาธรรมชาติ ช่วยวิเคราะห์ข้อมูล และดึงข้อมูลเชิงลึกที่มีความหมายออกมา
Natural Language Processing หรือ NLP เป็นส่วนหนึ่งของแมชชีนเลิร์นนิงที่เกี่ยวข้องกับข้อมูลข้อความและวิธีการประมวลผลล่วงหน้าเพื่อป้อนเป็นอินพุตสำหรับปัญหาแมชชีนเลิร์นนิง
การขูดเว็บยังสามารถใช้เพื่อดึงข้อมูลเพื่อวัตถุประสงค์ในการวิจัย ทำความเข้าใจ/เปรียบเทียบแนวโน้มของตลาด ตรวจสอบ SEO และอื่นๆ
บรรทัดด้านล่างสามารถเรียกใช้เพื่อติดตั้ง BeautifulSoup บน Windows -
ตัวอย่าง
pip install beautifulsoup4 import requests from bs4 import BeautifulSoup from urllib.request import urlopen import urllib url = 'https://en.wikipedia.org/wiki/Algorithm' parsed_uri = urllib.request.urlparse(url) domainName = '{uri.scheme}://{uri.netloc}/'.format(uri=parsed_uri) print("The domain name is : ") print(domainName)
ผลลัพธ์
The domain name is : https://en.wikipedia.org/
คำอธิบาย
-
แพ็คเกจที่จำเป็นนั้นนำเข้ามาและใช้นามแฝง
-
มีการกำหนดเว็บไซต์
-
ชื่อโดเมนถูกกำหนดโดยใช้ฟังก์ชัน 'netloc' และ 'scheme'
-
ฟังก์ชัน 'urlparse' ถูกเรียกเพื่อรับชื่อโดเมน
-
ชื่อโดเมนพิมพ์อยู่บนคอนโซล