การขูดเว็บคือการดึงข้อมูล ข้อมูล หรือรูปภาพจากเว็บไซต์โดยใช้วิธีการอัตโนมัติ คิดว่าเป็นการคัดลอกและวางอัตโนมัติเต็มรูปแบบ
เราเขียนหรือใช้แอพเพื่อไปยังเว็บไซต์ที่เราต้องการและทำสำเนาของสิ่งที่เราต้องการจากเว็บไซต์เหล่านั้น แม่นยำกว่าการดาวน์โหลดทั้งเว็บไซต์มาก
เช่นเดียวกับเครื่องมืออื่นๆ การขูดเว็บสามารถใช้ได้ทั้งดีและชั่ว เหตุผลที่ดีกว่าบางประการในการขูดเว็บไซต์คือการจัดอันดับเว็บไซต์ในเครื่องมือค้นหาโดยพิจารณาจากเนื้อหา การเปรียบเทียบราคาซื้อของ หรือการตรวจสอบข้อมูลตลาดหุ้น คุณอาจจะใช้มันเป็นเครื่องมือในการวิจัยก็ได้
ฉันจะขูดเว็บไซต์ด้วย Excel ได้อย่างไร
เชื่อหรือไม่ว่า Excel มีความสามารถในการดึงข้อมูลจากเว็บไซต์มาเป็นเวลานาน อย่างน้อยก็ตั้งแต่ Excel 2003 แค่การ Webscraping เป็นสิ่งที่คนส่วนใหญ่ไม่คิดจะทำ . แต่มันง่ายอย่างน่าประหลาดใจและทรงพลัง มาเรียนรู้วิธีการทำโดยการรวบรวมแป้นพิมพ์ลัดของ Microsoft Office
ค้นหาไซต์ที่คุณต้องการขูด
สิ่งแรกที่เราจะทำคือค้นหาหน้าเว็บเฉพาะที่เราต้องการรับข้อมูล ไปที่แหล่งที่มาและค้นหาที่ https://support.office.com/ เราจะใช้คำค้นหา "ทางลัดที่ใช้บ่อย" เราสามารถทำให้เฉพาะเจาะจงมากขึ้นโดยใช้ชื่อของแอปเฉพาะ เช่น Outlook, Excel, Word และอื่นๆ อาจเป็นความคิดที่ดีที่จะบุ๊กมาร์กหน้าผลลัพธ์เพื่อให้เรากลับไปที่นั่นได้อย่างง่ายดาย
คลิกที่ผลการค้นหา "แป้นพิมพ์ลัดใน Excel forWindows" เมื่ออยู่ในหน้านั้น ให้ค้นหารายการเวอร์ชันของ Excel และคลิกที่ เวอร์ชันที่ใหม่กว่า . ตอนนี้เรากำลังทำงานกับสิ่งใหม่ล่าสุดและยิ่งใหญ่ที่สุด
เราสามารถกลับไปที่หน้าผลการค้นหาของเราและเปิดผลการค้นหาสำหรับแอป Office อื่นๆ ทั้งหมดในแท็บของตนเองและบุ๊กมาร์กไว้ เป็นความคิดที่ดี แม้แต่สำหรับแบบฝึกหัดนี้ นี่คือจุดที่คนส่วนใหญ่จะหยุดรวบรวมทางลัดของ Office แต่ไม่ใช่เรา เราจะใส่ไว้ใน Excel เพื่อให้เราสามารถทำทุกอย่างที่เราต้องการกับพวกเขาได้ทุกเมื่อที่เราต้องการ
เปิด Excel แล้วขูด
เปิด Excel และเริ่มเวิร์กบุ๊กใหม่ บันทึกเวิร์กบุ๊กเป็นทางลัดของ Office . หากคุณมี OneDrive ให้บันทึกไว้ที่นั่นเพื่อให้ บันทึกอัตโนมัติ ฟีเจอร์จะใช้งานได้
เมื่อบันทึกเวิร์กบุ๊กแล้ว ให้คลิกที่ ข้อมูล แท็บ
ในแถบริบบิ้นของแท็บข้อมูล ให้คลิกที่ จากเว็บ .
จากเว็บ หน้าต่างตัวช่วยสร้างจะเปิดขึ้น นี่คือที่ที่เราใส่ที่อยู่เว็บหรือ URL ของเว็บไซต์ที่เราต้องการขูดข้อมูล เปลี่ยนไปใช้เว็บเบราว์เซอร์ของคุณและคัดลอก URL.
วาง URL ลงใน URL ฟิลด์ของวิซาร์ดจากเว็บ เราสามารถเลือกใช้สิ่งนี้ใน พื้นฐาน หรือ ขั้นสูง โหมด. โหมดขั้นสูงทำให้เรามีตัวเลือกมากขึ้นในการเข้าถึงข้อมูลจากเว็บไซต์ สำหรับแบบฝึกหัดนี้ เราต้องใช้โหมดพื้นฐานเท่านั้น คลิก ตกลง .
Excel จะพยายามเชื่อมต่อกับเว็บไซต์ อาจใช้เวลาสักครู่ เราจะเห็นหน้าต่างความคืบหน้า (หากมี)
เนวิเกเตอร์ หน้าต่างจะเปิดขึ้น และเราจะเห็นรายการตารางจากเว็บไซต์ทางด้านซ้าย เมื่อเราเลือกตาราง เราจะเห็นตัวอย่างตารางทางด้านขวา มาเลือก ทางลัดที่ใช้บ่อย ตาราง
เราสามารถคลิกที่ WebView แท็บเพื่อดูเว็บไซต์จริงถ้าเราต้องมองไปรอบ ๆ สำหรับตารางที่เราต้องการ เมื่อพบแล้ว ให้คลิกเข้าไป แล้วระบบจะเลือกให้นำเข้า
ตอนนี้ เราคลิกที่ โหลด ปุ่มที่ด้านล่างของหน้าต่างนี้ มีตัวเลือกอื่น ๆ ที่เราสามารถเลือกได้ ซึ่งซับซ้อนกว่าและอยู่นอกเหนือขอบเขตของการขูดครั้งแรกของเรา เพียงระวังว่าพวกเขาอยู่ที่นั่น ความสามารถในการขูดเว็บของ Excel นั้นทรงพลังมาก
ตารางเว็บจะโหลดใน Excel หลังจากนั้นไม่กี่วินาที เราจะเห็นข้อมูลทางด้านซ้ายซึ่งมีตัวเลข 1 อยู่ในภาพด้านล่าง หมายเลข 2 ไฮไลต์ ข้อความค้นหา ใช้ในการรับข้อมูลจากเว็บไซต์ เมื่อเรามีคำถามหลายรายการในสมุดงาน นี่คือที่ที่เราจะเลือกคำที่ต้องการใช้
สังเกตว่าข้อมูลเข้ามาในสเปรดชีตเป็น Exceltable ได้จัดเตรียมไว้ให้เราสามารถกรองหรือจัดเรียงข้อมูลได้
เราสามารถทำซ้ำขั้นตอนนี้สำหรับหน้าเว็บอื่นๆ ทั้งหมดที่มีปุ่มลัดของ Office ที่เราต้องการสำหรับ Outlook, Word, Access, PowerPoint และแอป Office อื่นๆ
การรักษาข้อมูลที่ขูดให้เป็นปัจจุบันใน Excel
เพื่อเป็นโบนัสสำหรับคุณ เราจะได้เรียนรู้วิธีทำให้ข้อมูลที่ขูดของเรามีความสดใหม่อยู่เสมอใน Excel นี่เป็นวิธีที่ยอดเยี่ยมในการแสดงให้เห็นว่า Excel มีประสิทธิภาพเพียงใดในการดึงข้อมูล แม้จะทำเช่นนี้ เราก็ทำเพียงแค่การขูดขั้นพื้นฐานที่ Excel สามารถทำได้
สำหรับตัวอย่างนี้ ให้ใช้หน้าเว็บข้อมูลหุ้น เช่น https://www.cnbc.com/stocks/
ดูสิ่งที่เราทำก่อนหน้านี้แล้วคัดลอกและวาง URL ใหม่จากแถบที่อยู่
คุณจะไปที่หน้าต่างตัวนำทางและดูตารางที่พร้อมใช้งาน มาเลือกดัชนีหุ้นสหรัฐรายใหญ่กันเถอะ
เมื่อข้อมูลถูกคัดลอกแล้ว เราจะเห็นสเปรดชีตต่อไปนี้
ทางด้านขวา เราจะเห็นข้อความค้นหาดัชนีหุ้นสหรัฐรายใหญ่ เลือกเพื่อให้ไฮไลท์ ตรวจสอบให้แน่ใจว่าเราอยู่ใน เครื่องมือตาราง แท็บและใน การออกแบบ พื้นที่. จากนั้นคลิกที่ลูกศรลงใต้ รีเฟรช .จากนั้นคลิกที่ คุณสมบัติการเชื่อมต่อ .
ใน คุณสมบัติการสืบค้น หน้าต่าง ใต้ การใช้งาน แท็บ เราควบคุมได้ว่าข้อมูลนี้จะรีเฟรชอย่างไร เราสามารถกำหนดช่วงเวลาเฉพาะเพื่อรีเฟรช หรือรีเฟรชเมื่อเราเปิดเวิร์กบุ๊กในครั้งต่อไป หรือรีเฟรชในพื้นหลัง หรือผสมกัน เมื่อเราเลือกสิ่งที่ต้องการแล้ว ให้คลิกที่ ตกลง เพื่อปิดหน้าต่างและดำเนินการต่อ
แค่นั้นแหละ! ตอนนี้คุณสามารถติดตามราคาหุ้น ผลการแข่งขันกีฬา หรือข้อมูลอื่นๆ ที่เปลี่ยนแปลงบ่อยจากสเปรดชีต Excel ได้แล้ว ถ้าคุณใช้สมการและฟังก์ชันของ Excel ได้ดี คุณจะทำอะไรกับข้อมูลได้เกือบทุกอย่าง
อาจพยายามระบุแนวโน้มของหุ้น เรียกใช้กีฬาแฟนตาซีในที่ทำงาน หรืออาจเพียงแค่ติดตามสภาพอากาศ ใครจะรู้? จินตนาการและข้อมูลของคุณบนอินเทอร์เน็ตเป็นข้อจำกัดเท่านั้น