หากคุณกำลังคัดลอกและวางสิ่งต่าง ๆ จากหน้าเว็บและใส่ไว้ในสเปรดชีตด้วยตนเอง คุณอาจไม่รู้ว่าการขูดข้อมูล (หรือการขูดเว็บ) คืออะไร หรือคุณรู้ว่ามันคืออะไรแต่ไม่ค่อยสนใจแนวคิดเรื่อง เรียนรู้วิธีเขียนโค้ดเพื่อประหยัดเวลาในการคลิกเพียงไม่กี่ชั่วโมง
ไม่ว่าจะด้วยวิธีใด มีเครื่องมือขูดข้อมูลที่ไม่มีโค้ดจำนวนมากที่สามารถช่วยคุณได้ และส่วนขยาย Chrome ของ Data Miner เป็นหนึ่งในตัวเลือกที่ใช้งานง่ายกว่า หากคุณโชคดี งานที่คุณพยายามทำจะรวมอยู่ในหนังสือสูตรอาหารของเครื่องมือแล้ว และคุณไม่จำเป็นต้องทำตามขั้นตอนการชี้แล้วคลิกที่เกี่ยวข้องในการสร้างงานของคุณเอง
เครื่องมือขุดข้อมูลทำงานอย่างไร
Data Miner ช่วยให้คุณดึงข้อมูลออกจากหน้าเว็บและกลายเป็นไฟล์ Excel/CSV ที่มีรูปแบบสวยงามโดยดูจากข้อความของหน้าเว็บที่คุณโหลด นั่นหมายความว่าคุณจะต้องคุ้นเคยกับ HTML อย่างน้อยจึงจะรู้จักรูปแบบสองสามรูปแบบ แต่ไม่มีอะไรมากจนเกินไป ทักษะ HTML และ/หรือ JavaScript ขั้นสูงจะช่วยงานบางอย่างได้อย่างแน่นอน แต่ไม่จำเป็นสำหรับสิ่งส่วนใหญ่ คุณควรมีทักษะด้านสเปรดชีตพื้นฐานเป็นอย่างน้อย เพื่อให้คุณมั่นใจได้ว่าผลงานของคุณสะอาดและเป็นระเบียบ
1. ตั้งค่าตัวขุดข้อมูล
ใช้ Chrome หรือเบราว์เซอร์ Chromium อื่น ติดตั้งส่วนขยาย ไอคอน pickaxe ของส่วนขยายจะปรากฏในแถบเครื่องมือของคุณ และการคลิกจะนำคุณไปยังหน้าที่คุณสามารถตั้งค่าบัญชีได้ เวอร์ชันฟรีให้คุณขูดได้ 500 ครั้งต่อเดือน ซึ่งก็น่าจะเพียงพอสำหรับคุณ เว้นแต่เป็นสิ่งที่คุณทำทุกวัน
2. โหลดข้อมูล
ขั้นแรก นำทางไปยังหน้าที่คุณต้องการดึงข้อมูล หากคุณมีข้อมูลหลายหน้าหรือบางส่วนถูกซ่อนอยู่หลังปุ่ม ก็ไม่เป็นไร มีวิธีจัดการกับมัน ในตอนนี้ คุณแค่ต้องการตัวอย่างจากตัวแทนเพื่อให้โปรแกรมรู้ว่าควรมองหาอะไร
3. ตรวจสอบสูตรอาหาร
จากนั้นเปิด Data Miner และเลือกแท็บ "สาธารณะ" สำหรับสูตรที่มีอยู่ หากคุณอยู่ในไซต์ยอดนิยม อาจมีคนอื่นสร้างกระบวนการเพื่อรับข้อมูลที่คุณต้องการแล้ว ซึ่งจะช่วยคุณประหยัดเวลาได้มากทีเดียว ตัวอย่างเช่น ไซต์ต่างๆ เช่น Google, Amazon และ Twitter มีสูตรอาหารมากมายที่จะช่วยให้คุณดาวน์โหลดลิงก์ ราคา ข้อความ และข้อมูลอื่นๆ ได้ทันที คุณสามารถทดสอบสูตรอาหารได้โดยคลิกปุ่ม "เรียกใช้" เพื่อดูตัวอย่างของสเปรดชีตที่ Data Miner สร้างขึ้น คุณยังปรับแต่งสูตรอาหารที่มีอยู่เพื่อให้เหมาะกับความต้องการของคุณได้โดยกดปุ่ม "แก้ไข"
4. ประเภทหน้า
โอเค ไม่มีสูตรสำเร็จใดๆ ที่เหมาะกับคุณ ไม่เป็นไร คุณสามารถทำเองได้ เพียงคลิกปุ่ม “สูตรใหม่” เพื่อเริ่มต้น
ตัวเลือกแรกของคุณคือ "หน้ารายการ" หรือ "หน้ารายละเอียด"
เลือก "หน้ารายการ" หากคุณกำลังพยายามดึงข้อมูลหลายแถวออกจากหน้าเดียว ตัวอย่างเช่น คุณอาจต้องการดาวน์โหลดลิงก์และชื่อหน้าของผลการค้นหาทุกรายการ หรือรับวันที่และเนื้อหาของโพสต์ในฟีด นี่อาจเป็นประเภทที่พบบ่อยที่สุดและประเภทที่เราจะใช้ที่นี่เป็นตัวอย่าง (ขั้นตอนสำหรับหน้ารายละเอียดจะเหมือนกัน)
เลือก "หน้ารายละเอียด" หากคุณมีข้อมูลที่แตกต่างกันมากมายเกี่ยวกับสิ่งหนึ่งๆ ในหน้าเดียว เช่น หน้าผลิตภัณฑ์ ซึ่งคุณจำเป็นต้องคว้าราคา คำอธิบาย ลิงก์ และการให้คะแนน แล้วรวมทั้งหมดไว้ในแถวเดียว .
ขั้นตอนที่ 5:สร้างแถวของคุณ
กดปุ่ม "ค้นหา" และเลื่อนเมาส์ของคุณจนกว่ากล่องตัวเลือกสีเหลืองจะครอบคลุมข้อมูลทั้งหมดที่คุณต้องการสำหรับรายการเดียวในสเปรดชีตสุดท้ายของคุณ ตัวอย่างเช่น หากคุณกำลังดาวน์โหลดผลการค้นหา คุณจะต้องเน้นพื้นที่ที่ใหญ่พอที่จะใส่ชื่อ URL และคำอธิบาย ซึ่งแต่ละส่วนสามารถแยกเป็นคอลัมน์ได้ในขั้นตอนถัดไป หากต้องการเลือก ให้กด Shift กุญแจ. ไม่ต้องกังวลหากคุณคลิกโดยไม่ตั้งใจ Data Miner จะบันทึกความคืบหน้าของสูตรทั้งหมดของคุณ แม้ว่าคุณจะออกจากหน้านั้นไปแล้วก็ตาม
จากนั้นคุณจะต้องกาเครื่องหมายอย่างน้อยหนึ่งช่องในส่วน "คลาสขององค์ประกอบ" หรือ "ประเภทองค์ประกอบ HTML" ตามหลักการแล้ว คุณจะเห็นการเลือกซ้ำเพื่อให้ครอบคลุมทุกองค์ประกอบในหน้าที่อยู่ในหมวดหมู่เดียวกับที่คุณเลือก
หากคุณพบว่าตัวเลือกไม่ครอบคลุมทุกสิ่งที่คุณต้องการ ให้ลองเลือกเพียงหนึ่งองค์ประกอบแล้วกด “เลือกผู้ปกครอง” นี่จะทำให้กล่องใหญ่ขึ้นและอาจเก็บทุกสิ่งที่คุณต้องการได้ ถ้าไม่เช่นนั้น คุณอาจต้องเจาะลึกใน HTML เล็กน้อย และระบุคลาสและประเภทขององค์ประกอบที่คุณต้องการ หากมีข้อสงสัย ให้กด "เลือกผู้ปกครอง" จนกว่าช่องจะใหญ่ที่สุดเท่าที่จะทำได้โดยไม่ปิดรายการมากกว่าหนึ่งรายการ เนื่องจากจะทำให้คุณมีความยืดหยุ่นมากขึ้นในการเลือกคอลัมน์
Data Miner ให้ตัวเลือก "ดู HTML ขององค์ประกอบ" ที่ด้านล่างและยังให้คุณพิมพ์ตัวเลือกที่กำหนดเองได้อีกด้วย หากคุณต้องการจะพูด ให้หยิบลิงก์ทั้งหมดบนหน้าที่มี "ผลิตภัณฑ์" ของชั้นเรียน คุณสามารถพิมพ์ a.product
. นี่คือจุดที่ความรู้พื้นฐานเกี่ยวกับ HTML/CSS มีประโยชน์อย่างยิ่ง
เมื่อคุณกลับมาที่เมนูแถวหลัก คุณจะเห็น "จำนวนแถว" พร้อมจำนวนรายการที่สูตรของคุณจะสร้างในสเปรดชีต หากตรวจไม่ครบทุกอย่าง คุณจะต้องตรวจสอบการเลือกแถวของคุณอีกครั้ง
6. แบ่งข้อมูลของคุณออกเป็นคอลัมน์
เมื่อคุณเลือกข้อมูลทั้งหมดสำหรับแถวของคุณแล้ว ก็ถึงเวลาทำให้ข้อมูลทั้งหมดดูดีโดยแบ่งย่อยออกเป็นหมวดหมู่คอลัมน์ต่างๆ ทุกการเลือกที่คุณทำที่นี่ควรเป็นส่วนย่อยของช่องที่คุณเลือกสำหรับแถวของคุณ
ในการสร้างคอลัมน์ เพียงพิมพ์ชื่อสำหรับคอลัมน์นั้นแล้วใช้ปุ่มค้นหาเพื่อเลือกสิ่งที่คุณต้องการแยก เช่นเดียวกับที่คุณทำกับแถว ข้อมูลทั่วไปส่วนใหญ่อาจเป็นข้อความ URL หรือ URL รูปภาพ การรับ URL โดยวางเมาส์เหนือลิงก์ข้อความอาจเป็นเรื่องยากเล็กน้อย คุณอาจต้องกด “เลือกพาเรนต์” จนกว่าจะถึงระดับที่ประเภทองค์ประกอบคือ <a>
ซึ่งเป็นแท็ก HTML สำหรับลิงก์
เพื่อให้แน่ใจว่าคุณมีข้อมูลประเภทที่ถูกต้องในคอลัมน์ของคุณ เพียงกดไอคอนรูปตาที่ด้านขวาของชื่อแต่ละคอลัมน์ ถัดจากตัวเลขที่แสดงจำนวนคอลัมน์ที่เลือก นี่จะแสดงตัวอย่างรายการทุกแถวสำหรับคอลัมน์นั้น หากมีบางอย่างผิดปกติ ให้กลับไปปรับแต่งแท็กและประเภทที่คุณเลือกเพื่อระบุแถว อย่ากลัวที่จะเปิดโปรแกรมดู HTML และตรวจสอบรูปแบบที่เกี่ยวข้องกับข้อมูลที่คุณพยายามจะคว้า
7. บอก Data Miner ว่าจะไปยังหน้าถัดไปได้อย่างไร
หากคุณมีข้อมูลหลายหน้าที่ต้องแยก คุณอาจไม่ต้องการคลิกดูทุกหน้าและเรียกใช้สูตรของคุณซ้ำแล้วซ้ำอีก ในการหลีกเลี่ยงปัญหานั้น เพียงบอก Data Miner ว่าจะหาปุ่มการนำทางที่จำเป็นต้องคลิกเพื่อไปยังหน้าถัดไปได้ที่ไหน ระวังอย่าบอกให้คลิกบางอย่างเช่น "หน้า 2" เพราะมันจะไปที่หน้า 2 อีกครั้ง ตรวจสอบให้แน่ใจว่าคุณกำลังเลือก <a>
และใช้ปุ่มทดสอบการนำทางเพื่อให้แน่ใจว่าใช้งานได้
8. บอก Data Miner ว่าจะคลิกหรือเลื่อนเพื่อโหลดข้อมูลได้ที่ไหน
บางหน้าไม่โหลดข้อมูลจนกว่าคุณจะคลิกบางอย่างหรือเลื่อนลง โชคดีที่ Data Miner สามารถทำสิ่งเหล่านี้ได้เช่นกัน! ใช้เครื่องมือ "ค้นหา" ที่ด้านบน (ตอนนี้คุณน่าจะเก่งอยู่แล้ว) เพื่อเลือกองค์ประกอบที่คุณต้องการจัดการ จากนั้นใส่ตัวเลือกลงในช่องที่เหมาะสมแล้วทดสอบเพื่อให้แน่ใจว่าใช้งานได้
การค้นหาว่าตัวเลือกใดที่จะเปิดใช้งานองค์ประกอบหรือแถบเลื่อนที่ไม่มีที่สิ้นสุดอาจเป็นเรื่องยาก แต่ความรู้ HTML พื้นฐานและการลองผิดลองถูกจะทำให้คุณไปได้ไกลทีเดียว หลายๆ อย่างที่คุณจะต้องจัดการในที่นี้ใช้ JavaScript แต่ Data Miner จำเป็นต้องทราบเฉพาะตัวเลือก CSS ที่เชื่อมโยงกับการดำเนินการเพื่อเปิดใช้งาน ดังนั้นคุณจึงไม่ควรต้องวุ่นวายกับโค้ดใดๆ ในกรณีส่วนใหญ่
ขั้นตอนต่อไปยังให้คุณเพิ่มใน JS แบบกำหนดเองเพื่อทำอะไรก็ได้ที่คุณต้องการ แต่นั่นค่อนข้างล้ำหน้าและมากกว่าที่เราต้องการสำหรับการขูดพื้นฐาน
9. บันทึกและเรียกใช้สูตร
ยินดีด้วย! ตอนนี้ก็ถึงเวลาดูว่าทุกอย่างมารวมกันหรือไม่ เรียกใช้สูตรบนหน้าที่คุณกำลังดูอยู่ และตรวจสอบการแสดงตัวอย่างเพื่อดูว่าแถวและคอลัมน์ของคุณทำในสิ่งที่ควรทำหรือไม่ หากไม่เป็นเช่นนั้น คุณสามารถกลับไปแก้ไขสูตรได้
หากทุกอย่างทำงานตามที่ควรจะเป็น คุณสามารถใช้ปุ่ม "หน้าถัดไป" เพื่อบอกมีดโกนว่าควรรวบรวมข้อมูลกี่หน้าและควรไปเร็วแค่ไหน/ (การไปเร็วเกินไปอาจทำให้ระบบแจ้งว่าคุณเป็นบอต)
เมื่อคุณมีข้อมูลทั้งหมดที่ต้องการแล้ว คุณสามารถเลือกรูปแบบไฟล์ที่ต้องการใช้เพื่อดาวน์โหลด
ฉันกำลังมีปัญหา มีวิธีที่ง่ายกว่านี้ไหม
หากโปรแกรม Data Miner ใช้งานไม่ได้สำหรับคุณ มีเครื่องมือขูดข้อมูลอื่นๆ มากมาย:ParseHub, Scraper, Octoparse, Import.io, VisualScraper เป็นต้น บางส่วนอาจมีอินเทอร์เฟซที่ใช้งานง่ายและระบบอัตโนมัติมากขึ้น แต่คุณยังจำเป็นต้องรู้อย่างน้อยสักเล็กน้อยเกี่ยวกับ HTML และการจัดระเบียบเว็บ สิ่งที่ทำให้ Data Miner เหมาะอย่างยิ่งสำหรับผู้เริ่มต้นคือไลบรารีสูตรที่รวบรวมผู้คนจำนวนมาก ซึ่งอาจช่วยให้คุณหลีกเลี่ยงการเผชิญหน้าโค้ดเพียงเล็กน้อยได้ เมื่อรวมกับแพ็คเกจการขูดฟรีรายเดือนที่เพียงพอ ทำให้เป็นเครื่องมือที่ดีสำหรับความต้องการส่วนใหญ่