Computer >> คอมพิวเตอร์ >  >> การเขียนโปรแกรม >> Python

Python ใช้งานการขูดเว็บโดยใช้lxml


ในบทความนี้ เราจะเรียนรู้เกี่ยวกับเทคนิคการขูดเว็บโดยใช้โมดูล lxml ที่มีอยู่ใน Python

การขูดเว็บคืออะไร

การขูดเว็บจะใช้เพื่อรับ/รับข้อมูลจากเว็บไซต์โดยใช้โปรแกรมรวบรวมข้อมูล/สแกนเนอร์ การทำลายเว็บมีประโยชน์ในการดึงข้อมูลจากหน้าเว็บที่ไม่มีฟังก์ชันการทำงานของ API ใน python การกำจัดเว็บสามารถทำได้โดยใช้โมดูลต่างๆ เช่น Beautiful Soup, Scrappy &lxml

ในที่นี้เราจะพูดถึงเรื่องการทำลายเว็บโดยใช้โมดูล lxml

เพื่อที่ เราต้อง ติดตั้ง lxml . ก่อน .

พิมพ์เทอร์มินัลหรือพรอมต์คำสั่ง -

>>> pip install lxml

ที่นี่ใช้ xpath เพื่อเข้าถึงข้อมูล

ในบทความนี้ เราจะดึงข้อมูลจากเว็บไซต์ที่เรียกว่า Steam ซึ่งมีข้อมูลเกี่ยวกับเกมต่างๆ

https://store.steampowered.com/genre/Free%20to%20Play/

ในหน้านี้ เราจะพยายามดึงข้อมูลจากส่วนข่าวออกใหม่ยอดนิยม

ที่นี่เราจะแยกชื่อ , ราคา , แท็กที่เกี่ยวข้อง &แพลตฟอร์มเป้าหมาย .

Python ใช้งานการขูดเว็บโดยใช้lxml

บนหน้าเว็บ ให้ดูโค้ด html ของแท็บรุ่นใหม่โดยใช้คุณสมบัติตรวจสอบองค์ประกอบใน chrome ที่นี่เราจะได้รู้ว่าแท็กใดที่จัดเก็บข้อมูลที่จำเป็น

ที่นี่ในเว็บไซต์นี้; ทุกองค์ประกอบรายการถูกห่อหุ้มในแท็ก div id=tab_content ซึ่งถูกห่อหุ้มเพิ่มเติมใน

a div tag id=tab_select_newreleases

มาดูการใช้งานกัน