ในบทความนี้ เราจะเรียนรู้เกี่ยวกับเทคนิคการขูดเว็บโดยใช้โมดูล lxml ที่มีอยู่ใน Python
การขูดเว็บคืออะไร
การขูดเว็บจะใช้เพื่อรับ/รับข้อมูลจากเว็บไซต์โดยใช้โปรแกรมรวบรวมข้อมูล/สแกนเนอร์ การทำลายเว็บมีประโยชน์ในการดึงข้อมูลจากหน้าเว็บที่ไม่มีฟังก์ชันการทำงานของ API ใน python การกำจัดเว็บสามารถทำได้โดยใช้โมดูลต่างๆ เช่น Beautiful Soup, Scrappy &lxml
ในที่นี้เราจะพูดถึงเรื่องการทำลายเว็บโดยใช้โมดูล lxml
เพื่อที่ เราต้อง ติดตั้ง lxml . ก่อน .
พิมพ์เทอร์มินัลหรือพรอมต์คำสั่ง -
>>> pip install lxml
ที่นี่ใช้ xpath เพื่อเข้าถึงข้อมูล
ในบทความนี้ เราจะดึงข้อมูลจากเว็บไซต์ที่เรียกว่า Steam ซึ่งมีข้อมูลเกี่ยวกับเกมต่างๆ
https://store.steampowered.com/genre/Free%20to%20Play/
ในหน้านี้ เราจะพยายามดึงข้อมูลจากส่วนข่าวออกใหม่ยอดนิยม
ที่นี่เราจะแยกชื่อ , ราคา , แท็กที่เกี่ยวข้อง &แพลตฟอร์มเป้าหมาย .
บนหน้าเว็บ ให้ดูโค้ด html ของแท็บรุ่นใหม่โดยใช้คุณสมบัติตรวจสอบองค์ประกอบใน chrome ที่นี่เราจะได้รู้ว่าแท็กใดที่จัดเก็บข้อมูลที่จำเป็น
ที่นี่ในเว็บไซต์นี้; ทุกองค์ประกอบรายการถูกห่อหุ้มในแท็ก div id=tab_content ซึ่งถูกห่อหุ้มเพิ่มเติมใน
a div tag id=tab_select_newreleases
มาดูการใช้งานกัน