เมื่อเราพูดถึง Big Data ครั้งล่าสุด เราได้พูดถึงเทคนิคการวิเคราะห์ข้อมูลขนาดใหญ่แบบต่างๆ ก่อนหน้านี้เราได้พูดถึงแง่มุมต่างๆ ของ Big Data ในบล็อกหนึ่งของฉัน ฉันได้อธิบาย“ฟังก์ชันการทำงานของเลเยอร์สถาปัตยกรรมอ้างอิงข้อมูลขนาดใหญ่” . ดังที่ได้กล่าวไว้ก่อนหน้านี้ ดำเนินการต่อในบรรทัดเดียวกัน ในบล็อกนี้เราจะหารือเกี่ยวกับ “เครื่องมือสกัดข้อมูลแบบโอเพ่นซอร์ส 10 อันดับแรก” .
เครื่องมือแยกข้อมูลของข้อมูลขนาดใหญ่ช่วยในการรวบรวมข้อมูลจากแหล่งที่มาต่างๆ ทั้งหมดและแปลงข้อมูลในรูปแบบที่มีโครงสร้าง คำที่ใช้บ่อยสำหรับเครื่องมือเหล่านี้คือ “ETL – แยกการแปลงและโหลด” . ฟังก์ชันการทำงานของเครื่องมือเหล่านี้สามารถแบ่งออกเป็น 3 เฟสที่อธิบายไว้ด้านล่าง:
- แยกข้อมูลจากแหล่งข้อมูลที่เป็นเนื้อเดียวกันหรือต่างกัน
- แปลงข้อมูลเพื่อจัดเก็บไว้ในรูปแบบหรือโครงสร้างที่เหมาะสมสำหรับการสืบค้นและการวิเคราะห์
- โหลดลงในเป้าหมายสุดท้าย (ฐานข้อมูล โดยเฉพาะอย่างยิ่ง ที่เก็บข้อมูลการดำเนินงาน ดาต้ามาร์ท หรือคลังข้อมูล)
โดยปกติแล้วในเครื่องมือ ETL ทั้งสามเฟสจะทำงานพร้อมกันเนื่องจากการดึงข้อมูลต้องใช้เวลา ดังนั้นในขณะที่ข้อมูลถูกดึง กระบวนการแปลงอื่นจะดำเนินการ ประมวลผลข้อมูลที่ได้รับแล้ว และ เตรียมข้อมูลสำหรับการโหลด และทันทีที่มีข้อมูลบางส่วนพร้อมที่จะโหลดไปยังเป้าหมาย การโหลดข้อมูลจะเริ่มขึ้นโดยไม่รอให้ขั้นตอนก่อนหน้านี้เสร็จสิ้น
ฉันกำลังแสดงรายการเครื่องมือสกัดข้อมูลแบบโอเพ่นซอร์สหรือ ETL 10 อันดับแรก:
1. Talend Open Studio:
Talend Openstudio เป็นหนึ่งในเครื่องมือ ETL การรวมข้อมูลที่ทรงพลังที่สุดในตลาด Talend Open Studio เป็นชุดผลิตภัณฑ์โอเพ่นซอร์สที่หลากหลายสำหรับการพัฒนา ทดสอบ ปรับใช้ และจัดการโครงการการจัดการข้อมูลและการรวมแอปพลิเคชัน
สำหรับโครงการ ETL นั้น Talend Open Studio for Data Integration มอบโซลูชันที่หลากหลายสำหรับการรวมข้อมูล ทั้งแบบโอเพ่นซอร์สและแบบเชิงพาณิชย์ Talend นำเสนอชุดคุณสมบัติที่หลากหลายรวมถึงสภาพแวดล้อมการพัฒนาแบบรวมกราฟิกพร้อมอินเทอร์เฟซที่ใช้ Eclipse ที่ใช้งานง่าย ด้วยโฟลว์การออกแบบแบบลากและวาง และการเชื่อมต่อที่กว้างขวางด้วยตัวเชื่อมต่อแอปพลิเคชันที่กำหนดค่าไว้ล่วงหน้ามากกว่า 400 รายการเพื่อเชื่อมต่อระหว่างฐานข้อมูล เมนเฟรม ระบบไฟล์ บริการเว็บ แอปพลิเคชันองค์กรแบบแพ็คเกจ คลังข้อมูล แอปพลิเคชัน OLAP ซอฟต์แวร์ในรูปแบบซอฟต์แวร์ -บริการ แอปพลิเคชันบนคลาวด์ และอื่นๆ
2. สคริปเทลล่า:
Scriptella เป็นเครื่องมือ ETL แบบโอเพ่นซอร์สที่เรียกใช้โดย Apache ซึ่งควบคู่ไปกับการทำงานของการแตกไฟล์ การแปลง ตลอดจนกระบวนการโหลด ยังใช้ในการรันสคริปต์จาวาอีกด้วย เป็นเครื่องมือที่เรียบง่ายและใช้งานง่ายและเป็นที่นิยมเนื่องจากใช้งานง่าย คุณสมบัติรวมถึงการดำเนินการสคริปต์ที่เขียนด้วย SQL, JavaScript, JEXL, Velocity การย้ายฐานข้อมูล การทำงานร่วมกันกับ LDAP, JDBC, XML และแหล่งข้อมูลอื่นๆ การดำเนินการข้ามฐานข้อมูล ETL, นำเข้า/ส่งออกจาก/เป็น CSV, ข้อความและ XML และรูปแบบอื่นๆ
3. KETL:
KETL เป็นหนึ่งในเครื่องมือโอเพ่นซอร์สที่ดีที่สุดสำหรับคลังข้อมูล มันทำจากโครงสร้างที่เน้นจาวาพร้อมกับ XML และภาษาอื่นๆ เอ็นจิ้นนี้สร้างขึ้นจากสถาปัตยกรรมแบบ XML แบบมัลติเธรดแบบเปิด คุณลักษณะหลักของ KETL ได้แก่ การรองรับการรวมระบบความปลอดภัยและเครื่องมือการจัดการข้อมูล ความสามารถในการปรับขนาดที่พิสูจน์แล้วในเซิร์ฟเวอร์หลายเครื่องและ CPU และปริมาณข้อมูลใด ๆ และไม่จำเป็นต้องใช้เครื่องมือกำหนดเวลา การพึ่งพา และการแจ้งเตือนของบุคคลที่สามเพิ่มเติม
4. ตัวรวมข้อมูล Pentaho – กาต้มน้ำ:
อ้างอิงจาก Pentaho เองว่าเป็นผู้ให้บริการ BI ที่มีเครื่องมือ ETL เป็นความสามารถในการรวมข้อมูล ความสามารถ ETL เหล่านี้ขึ้นอยู่กับโครงการ Kettle เป็นโปรแกรมจาวาและไลบรารี่ Kettle เป็นล่ามของขั้นตอนที่เขียนในรูปแบบ XML Kettle มีเครื่องมือ Java Script เพื่อปรับแต่งกระบวนการจัดการข้อมูลอย่างละเอียด Kettle เป็นเครื่องมือที่ดี มีทุกสิ่งที่จำเป็นในการสร้างขั้นตอน ETL ที่ซับซ้อน Kettle เป็นล่ามของขั้นตอน ETL ที่เขียนในรูปแบบ XML
Kettle (PDI) เป็นเครื่องมือเริ่มต้นใน Pentaho Business Intelligence Suite ขั้นตอนสามารถดำเนินการนอกแพลตฟอร์ม Pentaho ได้เช่นกัน โดยมีเงื่อนไขว่าจะต้องติดตั้ง Kettle Libraries และ Java Interpreter ทั้งหมด
5. Jaspersoft ETL:
Jaspersoft ETL ง่ายต่อการปรับใช้และมีประสิทธิภาพเหนือกว่าระบบ ETL ที่เป็นกรรมสิทธิ์และโอเพ่นซอร์สจำนวนมาก ใช้เพื่อดึงข้อมูลจากระบบธุรกรรมของคุณเพื่อสร้างคลังข้อมูลรวมหรือดาต้ามาร์ทสำหรับการรายงานและการวิเคราะห์ คุณสมบัติรวมถึงตัวจำลองธุรกิจเพื่อเข้าถึงมุมมองที่ไม่ใช่ด้านเทคนิคของเวิร์กโฟลว์ข้อมูล แสดงและแก้ไขกระบวนการ ETL ด้วย Job Designer ซึ่งเป็นเครื่องมือแก้ไขกราฟิก กำหนดการแมปและการแปลงที่ซับซ้อนด้วย Transformation Mapper และส่วนประกอบการแปลงอื่นๆ
ยังมีความสามารถในการติดตามสถิติ ETL ตั้งแต่ต้นจนจบด้วยการดีบักตามเวลาจริง อนุญาตให้ส่งออกและป้อนข้อมูลพร้อมกันไปยังหลายแหล่ง รวมถึงไฟล์แฟลต ไฟล์ XML ฐานข้อมูล เว็บ บริการ เซิร์ฟเวอร์ POP และ FTP พร้อมตัวเชื่อมต่อที่มีอยู่หลายร้อยรายการ และการใช้คอนโซลการตรวจสอบกิจกรรมเพื่อตรวจสอบกิจกรรมของงาน เวลาดำเนินการ และปริมาณข้อมูล
6. GeoKettle:
GeoKettle เป็นเครื่องมือ ETL ทั่วไปรุ่น Kettle (การรวมข้อมูล Pentaho) GeoKettle เป็นเครื่องมือ ETL เชิงพื้นที่ที่ขับเคลื่อนด้วยข้อมูลเมตาที่ทรงพลัง ซึ่งทุ่มเทให้กับการรวมแหล่งข้อมูลเชิงพื้นที่ต่างๆ สำหรับการสร้างและอัปเดตคลังข้อมูลเชิงพื้นที่
ช่วยให้สามารถดึงข้อมูลจากแหล่งข้อมูล การแปลงข้อมูลเพื่อแก้ไขข้อผิดพลาด ทำการล้างข้อมูลบางส่วน เปลี่ยนโครงสร้างข้อมูล ทำให้เป็นไปตามมาตรฐานที่กำหนด และการโหลดข้อมูลที่แปลงแล้วไปยังระบบจัดการฐานข้อมูล (DBMS) เป้าหมายในโหมด OLTP หรือ OLAP/SOLAP, ไฟล์ GIS หรือ Geospatial Web Service
7. โคลเวอร์ ETL:
โครงการนี้กำกับโดย OpenSys ซึ่งเป็นบริษัทในสาธารณรัฐเช็ก เป็นโอเพ่นซอร์สที่ใช้ Java และได้รับสิทธิ์การใช้งานคู่ ซึ่งในเวอร์ชันที่ได้รับอนุญาตในเชิงพาณิชย์นั้นมีการรับประกันและการสนับสนุน ในข้อเสนอนี้มีรอยขนาดเล็กที่ทำให้ง่ายต่อการฝังโดยผู้รวมระบบและ ISV มีจุดมุ่งหมายเพื่อสร้างไลบรารีพื้นฐานของฟังก์ชัน รวมถึงการแมปและการแปลง รุ่นเซิร์ฟเวอร์สำหรับองค์กรเป็นข้อเสนอเชิงพาณิชย์
8. ระบบ HPCC:
HPCC Systems เป็นแพลตฟอร์มโอเพ่นซอร์สสำหรับการวิเคราะห์ข้อมูลขนาดใหญ่ด้วยเครื่องมือ Data Refinery ที่ชื่อว่า Thor Thor ทำความสะอาด เชื่อมโยง แปลง และวิเคราะห์ข้อมูลขนาดใหญ่ Thor รองรับฟังก์ชัน ETL (การสกัด การแปลง และการโหลด) เช่น การนำข้อมูลที่ไม่มีโครงสร้าง/ข้อมูลที่มีโครงสร้างออก การทำโปรไฟล์ข้อมูล สุขอนามัยข้อมูล และการเชื่อมโยงข้อมูลออกจากกล่อง ผู้ใช้จำนวนมากสามารถเข้าถึงข้อมูลที่ประมวลผลของ Thor ได้พร้อมกันแบบเรียลไทม์โดยใช้ Roxie ซึ่งเป็นเครื่องมือจัดส่งข้อมูล Roxie มอบความสามารถในการสืบค้นแบบเรียลไทม์พร้อมกันสูงและเวลาแฝงต่ำ
9. เจดอกซ์:
Jedox เป็นเครื่องมือโซลูชัน BI แบบโอเพ่นซอร์ส เครื่องมือเฉพาะนี้มีไว้สำหรับจัดการแผนกลยุทธ์การถือครองประสิทธิภาพ การสืบสวน ความครอบคลุม และกระบวนการที่เกี่ยวข้องกับแนวคิด ETL Open Core ประกอบด้วยเซิร์ฟเวอร์ OLAP ในหน่วยความจำ, เซิร์ฟเวอร์ ETL และไลบรารีไคลเอ็นต์ OLAP รองรับเซิร์ฟเวอร์ Jedox OLAP อย่างทรงพลังในฐานะระบบต้นทางและเป้าหมาย เครื่องมือได้รับการจัดเตรียมพร้อมความสามารถในการเอาชนะความยุ่งยากในการตรวจสอบ OLAP โมเดลทั่วไปใดๆ ก็ตามสามารถเปลี่ยนเป็นโมเดล OLAP ได้โดยใช้เครื่องมือ ETL นี้โดยเฉพาะ
การทำงานกับลูกบาศก์และมิตินั้นง่ายกว่าที่เคย สร้างลำดับชั้นเวลาที่ต้องการบ่อยได้อย่างยืดหยุ่น และแปลงแบบจำลองเชิงสัมพันธ์ของระบบต้นทางเป็นแบบจำลอง OLAP อย่างมีประสิทธิภาพด้วย JEDOX ETL
10. Apatar ETL:
Apatar ETL นำเสนอความสามารถที่ไม่มีใครเทียบได้ในแพ็คเกจโอเพ่นซอร์ส คุณสมบัติต่างๆ ได้แก่ การเชื่อมต่อกับ Oracle, MS SQL, MySQL, Sybase DB2, MS Access, PostgreSQL, XML, InstantDB, Paradox, BorlandJDataStore, Csv, MS Excel, Qed, HSQL, SalesForce.Com เป็นต้น มีอินเทอร์เฟซเดียวสำหรับจัดการการผสานรวมทั้งหมด โครงการ, ตัวเลือกการปรับใช้ที่ยืดหยุ่น, การรวมแบบสองทิศทาง, ไม่ขึ้นกับแพลตฟอร์ม, รันจาก Windows, Linux, Mac; ใช้จาวา 100% ไม่มีการเข้ารหัส ตัวออกแบบงานภาพและการแมปช่วยให้ผู้ที่ไม่ใช่นักพัฒนาสามารถออกแบบและดำเนินการแปลงได้
เครื่องมือโอเพ่นซอร์สมักมีข้อจำกัดอยู่เสมอ ไม่ว่าจะมีข้อจำกัดใดๆ ก็ตาม ข้อจำกัดในแง่ของคุณลักษณะขั้นสูง สถานที่จัดเก็บ คุณลักษณะการวิเคราะห์ขั้นสูง และอื่นๆ อีกมากมาย ดังนั้นจึงแนะนำให้ใช้เครื่องมือที่ได้รับอนุญาต บล็อกถัดไปของฉันจะพูดคุยเกี่ยวกับเครื่องมือสกัดข้อมูลที่ได้รับอนุญาต