Computer >> คอมพิวเตอร์ >  >> ระบบเครือข่าย >> อินเทอร์เน็ต

วิธีใช้เครื่องมือขูดข้อมูลเพื่อดึงข้อมูลจากหน้าเว็บ

วิธีใช้เครื่องมือขูดข้อมูลเพื่อดึงข้อมูลจากหน้าเว็บ

หากคุณกำลังคัดลอกและวางสิ่งต่าง ๆ จากหน้าเว็บและใส่ไว้ในสเปรดชีตด้วยตนเอง คุณอาจไม่รู้ว่าการขูดข้อมูล (หรือการขูดเว็บ) คืออะไร หรือคุณรู้ว่ามันคืออะไรแต่ไม่ค่อยสนใจแนวคิดเรื่อง เรียนรู้วิธีเขียนโค้ดเพื่อประหยัดเวลาในการคลิกเพียงไม่กี่ชั่วโมง

ไม่ว่าจะด้วยวิธีใด มีเครื่องมือขูดข้อมูลที่ไม่มีโค้ดจำนวนมากที่สามารถช่วยคุณได้ และส่วนขยาย Chrome ของ Data Miner เป็นหนึ่งในตัวเลือกที่ใช้งานง่ายกว่า หากคุณโชคดี งานที่คุณพยายามทำจะรวมอยู่ในหนังสือสูตรอาหารของเครื่องมือแล้ว และคุณไม่จำเป็นต้องทำตามขั้นตอนการชี้แล้วคลิกที่เกี่ยวข้องในการสร้างงานของคุณเอง

เครื่องมือขุดข้อมูลทำงานอย่างไร

Data Miner ช่วยให้คุณดึงข้อมูลออกจากหน้าเว็บและกลายเป็นไฟล์ Excel/CSV ที่มีรูปแบบสวยงามโดยดูจากข้อความของหน้าเว็บที่คุณโหลด นั่นหมายความว่าคุณจะต้องคุ้นเคยกับ HTML อย่างน้อยจึงจะรู้จักรูปแบบสองสามรูปแบบ แต่ไม่มีอะไรมากจนเกินไป ทักษะ HTML และ/หรือ JavaScript ขั้นสูงจะช่วยงานบางอย่างได้อย่างแน่นอน แต่ไม่จำเป็นสำหรับสิ่งส่วนใหญ่ คุณควรมีทักษะด้านสเปรดชีตพื้นฐานเป็นอย่างน้อย เพื่อให้คุณมั่นใจได้ว่าผลงานของคุณสะอาดและเป็นระเบียบ

1. ตั้งค่าตัวขุดข้อมูล

วิธีใช้เครื่องมือขูดข้อมูลเพื่อดึงข้อมูลจากหน้าเว็บ

ใช้ Chrome หรือเบราว์เซอร์ Chromium อื่น ติดตั้งส่วนขยาย ไอคอน pickaxe ของส่วนขยายจะปรากฏในแถบเครื่องมือของคุณ และการคลิกจะนำคุณไปยังหน้าที่คุณสามารถตั้งค่าบัญชีได้ เวอร์ชันฟรีให้คุณขูดได้ 500 ครั้งต่อเดือน ซึ่งก็น่าจะเพียงพอสำหรับคุณ เว้นแต่เป็นสิ่งที่คุณทำทุกวัน

2. โหลดข้อมูล

วิธีใช้เครื่องมือขูดข้อมูลเพื่อดึงข้อมูลจากหน้าเว็บ

ขั้นแรก นำทางไปยังหน้าที่คุณต้องการดึงข้อมูล หากคุณมีข้อมูลหลายหน้าหรือบางส่วนถูกซ่อนอยู่หลังปุ่ม ก็ไม่เป็นไร มีวิธีจัดการกับมัน ในตอนนี้ คุณแค่ต้องการตัวอย่างจากตัวแทนเพื่อให้โปรแกรมรู้ว่าควรมองหาอะไร

3. ตรวจสอบสูตรอาหาร

วิธีใช้เครื่องมือขูดข้อมูลเพื่อดึงข้อมูลจากหน้าเว็บ

จากนั้นเปิด Data Miner และเลือกแท็บ "สาธารณะ" สำหรับสูตรที่มีอยู่ หากคุณอยู่ในไซต์ยอดนิยม อาจมีคนอื่นสร้างกระบวนการเพื่อรับข้อมูลที่คุณต้องการแล้ว ซึ่งจะช่วยคุณประหยัดเวลาได้มากทีเดียว ตัวอย่างเช่น ไซต์ต่างๆ เช่น Google, Amazon และ Twitter มีสูตรอาหารมากมายที่จะช่วยให้คุณดาวน์โหลดลิงก์ ราคา ข้อความ และข้อมูลอื่นๆ ได้ทันที คุณสามารถทดสอบสูตรอาหารได้โดยคลิกปุ่ม "เรียกใช้" เพื่อดูตัวอย่างของสเปรดชีตที่ Data Miner สร้างขึ้น คุณยังปรับแต่งสูตรอาหารที่มีอยู่เพื่อให้เหมาะกับความต้องการของคุณได้โดยกดปุ่ม "แก้ไข"

4. ประเภทหน้า

วิธีใช้เครื่องมือขูดข้อมูลเพื่อดึงข้อมูลจากหน้าเว็บ

โอเค ไม่มีสูตรสำเร็จใดๆ ที่เหมาะกับคุณ ไม่เป็นไร คุณสามารถทำเองได้ เพียงคลิกปุ่ม “สูตรใหม่” เพื่อเริ่มต้น

ตัวเลือกแรกของคุณคือ "หน้ารายการ" หรือ "หน้ารายละเอียด"

เลือก "หน้ารายการ" หากคุณกำลังพยายามดึงข้อมูลหลายแถวออกจากหน้าเดียว ตัวอย่างเช่น คุณอาจต้องการดาวน์โหลดลิงก์และชื่อหน้าของผลการค้นหาทุกรายการ หรือรับวันที่และเนื้อหาของโพสต์ในฟีด นี่อาจเป็นประเภทที่พบบ่อยที่สุดและประเภทที่เราจะใช้ที่นี่เป็นตัวอย่าง (ขั้นตอนสำหรับหน้ารายละเอียดจะเหมือนกัน)

เลือก "หน้ารายละเอียด" หากคุณมีข้อมูลที่แตกต่างกันมากมายเกี่ยวกับสิ่งหนึ่งๆ ในหน้าเดียว เช่น หน้าผลิตภัณฑ์ ซึ่งคุณจำเป็นต้องคว้าราคา คำอธิบาย ลิงก์ และการให้คะแนน แล้วรวมทั้งหมดไว้ในแถวเดียว .

ขั้นตอนที่ 5:สร้างแถวของคุณ

วิธีใช้เครื่องมือขูดข้อมูลเพื่อดึงข้อมูลจากหน้าเว็บ

กดปุ่ม "ค้นหา" และเลื่อนเมาส์ของคุณจนกว่ากล่องตัวเลือกสีเหลืองจะครอบคลุมข้อมูลทั้งหมดที่คุณต้องการสำหรับรายการเดียวในสเปรดชีตสุดท้ายของคุณ ตัวอย่างเช่น หากคุณกำลังดาวน์โหลดผลการค้นหา คุณจะต้องเน้นพื้นที่ที่ใหญ่พอที่จะใส่ชื่อ URL และคำอธิบาย ซึ่งแต่ละส่วนสามารถแยกเป็นคอลัมน์ได้ในขั้นตอนถัดไป หากต้องการเลือก ให้กด Shift กุญแจ. ไม่ต้องกังวลหากคุณคลิกโดยไม่ตั้งใจ Data Miner จะบันทึกความคืบหน้าของสูตรทั้งหมดของคุณ แม้ว่าคุณจะออกจากหน้านั้นไปแล้วก็ตาม

จากนั้นคุณจะต้องกาเครื่องหมายอย่างน้อยหนึ่งช่องในส่วน "คลาสขององค์ประกอบ" หรือ "ประเภทองค์ประกอบ HTML" ตามหลักการแล้ว คุณจะเห็นการเลือกซ้ำเพื่อให้ครอบคลุมทุกองค์ประกอบในหน้าที่อยู่ในหมวดหมู่เดียวกับที่คุณเลือก

วิธีใช้เครื่องมือขูดข้อมูลเพื่อดึงข้อมูลจากหน้าเว็บ

หากคุณพบว่าตัวเลือกไม่ครอบคลุมทุกสิ่งที่คุณต้องการ ให้ลองเลือกเพียงหนึ่งองค์ประกอบแล้วกด “เลือกผู้ปกครอง” นี่จะทำให้กล่องใหญ่ขึ้นและอาจเก็บทุกสิ่งที่คุณต้องการได้ ถ้าไม่เช่นนั้น คุณอาจต้องเจาะลึกใน HTML เล็กน้อย และระบุคลาสและประเภทขององค์ประกอบที่คุณต้องการ หากมีข้อสงสัย ให้กด "เลือกผู้ปกครอง" จนกว่าช่องจะใหญ่ที่สุดเท่าที่จะทำได้โดยไม่ปิดรายการมากกว่าหนึ่งรายการ เนื่องจากจะทำให้คุณมีความยืดหยุ่นมากขึ้นในการเลือกคอลัมน์

Data Miner ให้ตัวเลือก "ดู HTML ขององค์ประกอบ" ที่ด้านล่างและยังให้คุณพิมพ์ตัวเลือกที่กำหนดเองได้อีกด้วย หากคุณต้องการจะพูด ให้หยิบลิงก์ทั้งหมดบนหน้าที่มี "ผลิตภัณฑ์" ของชั้นเรียน คุณสามารถพิมพ์ a.product . นี่คือจุดที่ความรู้พื้นฐานเกี่ยวกับ HTML/CSS มีประโยชน์อย่างยิ่ง

วิธีใช้เครื่องมือขูดข้อมูลเพื่อดึงข้อมูลจากหน้าเว็บ

เมื่อคุณกลับมาที่เมนูแถวหลัก คุณจะเห็น "จำนวนแถว" พร้อมจำนวนรายการที่สูตรของคุณจะสร้างในสเปรดชีต หากตรวจไม่ครบทุกอย่าง คุณจะต้องตรวจสอบการเลือกแถวของคุณอีกครั้ง

6. แบ่งข้อมูลของคุณออกเป็นคอลัมน์

วิธีใช้เครื่องมือขูดข้อมูลเพื่อดึงข้อมูลจากหน้าเว็บ

เมื่อคุณเลือกข้อมูลทั้งหมดสำหรับแถวของคุณแล้ว ก็ถึงเวลาทำให้ข้อมูลทั้งหมดดูดีโดยแบ่งย่อยออกเป็นหมวดหมู่คอลัมน์ต่างๆ ทุกการเลือกที่คุณทำที่นี่ควรเป็นส่วนย่อยของช่องที่คุณเลือกสำหรับแถวของคุณ

วิธีใช้เครื่องมือขูดข้อมูลเพื่อดึงข้อมูลจากหน้าเว็บ

ในการสร้างคอลัมน์ เพียงพิมพ์ชื่อสำหรับคอลัมน์นั้นแล้วใช้ปุ่มค้นหาเพื่อเลือกสิ่งที่คุณต้องการแยก เช่นเดียวกับที่คุณทำกับแถว ข้อมูลทั่วไปส่วนใหญ่อาจเป็นข้อความ URL หรือ URL รูปภาพ การรับ URL โดยวางเมาส์เหนือลิงก์ข้อความอาจเป็นเรื่องยากเล็กน้อย คุณอาจต้องกด “เลือกพาเรนต์” จนกว่าจะถึงระดับที่ประเภทองค์ประกอบคือ <a> ซึ่งเป็นแท็ก HTML สำหรับลิงก์

วิธีใช้เครื่องมือขูดข้อมูลเพื่อดึงข้อมูลจากหน้าเว็บ

เพื่อให้แน่ใจว่าคุณมีข้อมูลประเภทที่ถูกต้องในคอลัมน์ของคุณ เพียงกดไอคอนรูปตาที่ด้านขวาของชื่อแต่ละคอลัมน์ ถัดจากตัวเลขที่แสดงจำนวนคอลัมน์ที่เลือก นี่จะแสดงตัวอย่างรายการทุกแถวสำหรับคอลัมน์นั้น หากมีบางอย่างผิดปกติ ให้กลับไปปรับแต่งแท็กและประเภทที่คุณเลือกเพื่อระบุแถว อย่ากลัวที่จะเปิดโปรแกรมดู HTML และตรวจสอบรูปแบบที่เกี่ยวข้องกับข้อมูลที่คุณพยายามจะคว้า

7. บอก Data Miner ว่าจะไปยังหน้าถัดไปได้อย่างไร

วิธีใช้เครื่องมือขูดข้อมูลเพื่อดึงข้อมูลจากหน้าเว็บ

หากคุณมีข้อมูลหลายหน้าที่ต้องแยก คุณอาจไม่ต้องการคลิกดูทุกหน้าและเรียกใช้สูตรของคุณซ้ำแล้วซ้ำอีก ในการหลีกเลี่ยงปัญหานั้น เพียงบอก Data Miner ว่าจะหาปุ่มการนำทางที่จำเป็นต้องคลิกเพื่อไปยังหน้าถัดไปได้ที่ไหน ระวังอย่าบอกให้คลิกบางอย่างเช่น "หน้า 2" เพราะมันจะไปที่หน้า 2 อีกครั้ง ตรวจสอบให้แน่ใจว่าคุณกำลังเลือก <a> และใช้ปุ่มทดสอบการนำทางเพื่อให้แน่ใจว่าใช้งานได้

วิธีใช้เครื่องมือขูดข้อมูลเพื่อดึงข้อมูลจากหน้าเว็บ

8. บอก Data Miner ว่าจะคลิกหรือเลื่อนเพื่อโหลดข้อมูลได้ที่ไหน

วิธีใช้เครื่องมือขูดข้อมูลเพื่อดึงข้อมูลจากหน้าเว็บ

บางหน้าไม่โหลดข้อมูลจนกว่าคุณจะคลิกบางอย่างหรือเลื่อนลง โชคดีที่ Data Miner สามารถทำสิ่งเหล่านี้ได้เช่นกัน! ใช้เครื่องมือ "ค้นหา" ที่ด้านบน (ตอนนี้คุณน่าจะเก่งอยู่แล้ว) เพื่อเลือกองค์ประกอบที่คุณต้องการจัดการ จากนั้นใส่ตัวเลือกลงในช่องที่เหมาะสมแล้วทดสอบเพื่อให้แน่ใจว่าใช้งานได้

การค้นหาว่าตัวเลือกใดที่จะเปิดใช้งานองค์ประกอบหรือแถบเลื่อนที่ไม่มีที่สิ้นสุดอาจเป็นเรื่องยาก แต่ความรู้ HTML พื้นฐานและการลองผิดลองถูกจะทำให้คุณไปได้ไกลทีเดียว หลายๆ อย่างที่คุณจะต้องจัดการในที่นี้ใช้ JavaScript แต่ Data Miner จำเป็นต้องทราบเฉพาะตัวเลือก CSS ที่เชื่อมโยงกับการดำเนินการเพื่อเปิดใช้งาน ดังนั้นคุณจึงไม่ควรต้องวุ่นวายกับโค้ดใดๆ ในกรณีส่วนใหญ่

ขั้นตอนต่อไปยังให้คุณเพิ่มใน JS แบบกำหนดเองเพื่อทำอะไรก็ได้ที่คุณต้องการ แต่นั่นค่อนข้างล้ำหน้าและมากกว่าที่เราต้องการสำหรับการขูดพื้นฐาน

9. บันทึกและเรียกใช้สูตร

วิธีใช้เครื่องมือขูดข้อมูลเพื่อดึงข้อมูลจากหน้าเว็บ

ยินดีด้วย! ตอนนี้ก็ถึงเวลาดูว่าทุกอย่างมารวมกันหรือไม่ เรียกใช้สูตรบนหน้าที่คุณกำลังดูอยู่ และตรวจสอบการแสดงตัวอย่างเพื่อดูว่าแถวและคอลัมน์ของคุณทำในสิ่งที่ควรทำหรือไม่ หากไม่เป็นเช่นนั้น คุณสามารถกลับไปแก้ไขสูตรได้

วิธีใช้เครื่องมือขูดข้อมูลเพื่อดึงข้อมูลจากหน้าเว็บ

หากทุกอย่างทำงานตามที่ควรจะเป็น คุณสามารถใช้ปุ่ม "หน้าถัดไป" เพื่อบอกมีดโกนว่าควรรวบรวมข้อมูลกี่หน้าและควรไปเร็วแค่ไหน/ (การไปเร็วเกินไปอาจทำให้ระบบแจ้งว่าคุณเป็นบอต)

วิธีใช้เครื่องมือขูดข้อมูลเพื่อดึงข้อมูลจากหน้าเว็บ

เมื่อคุณมีข้อมูลทั้งหมดที่ต้องการแล้ว คุณสามารถเลือกรูปแบบไฟล์ที่ต้องการใช้เพื่อดาวน์โหลด

วิธีใช้เครื่องมือขูดข้อมูลเพื่อดึงข้อมูลจากหน้าเว็บ

ฉันกำลังมีปัญหา มีวิธีที่ง่ายกว่านี้ไหม

หากโปรแกรม Data Miner ใช้งานไม่ได้สำหรับคุณ มีเครื่องมือขูดข้อมูลอื่นๆ มากมาย:ParseHub, Scraper, Octoparse, Import.io, VisualScraper เป็นต้น บางส่วนอาจมีอินเทอร์เฟซที่ใช้งานง่ายและระบบอัตโนมัติมากขึ้น แต่คุณยังจำเป็นต้องรู้อย่างน้อยสักเล็กน้อยเกี่ยวกับ HTML และการจัดระเบียบเว็บ สิ่งที่ทำให้ Data Miner เหมาะอย่างยิ่งสำหรับผู้เริ่มต้นคือไลบรารีสูตรที่รวบรวมผู้คนจำนวนมาก ซึ่งอาจช่วยให้คุณหลีกเลี่ยงการเผชิญหน้าโค้ดเพียงเล็กน้อยได้ เมื่อรวมกับแพ็คเกจการขูดฟรีรายเดือนที่เพียงพอ ทำให้เป็นเครื่องมือที่ดีสำหรับความต้องการส่วนใหญ่