Computer >> คอมพิวเตอร์ >  >> ระบบ >> Windows

Data Lakes:สิ่งเหล่านี้จะมาแทนที่ Data Warehouse หรือไม่

เรากำลังอยู่ในยุคที่ข้อมูลมีความสำคัญสูงสุด ไม่ว่าคุณจะเป็นใคร ข้อมูลที่คุณมีมีความสำคัญอย่างยิ่ง และเราต้องการพื้นที่ในการจัดเก็บ ทุกคนตั้งแต่บุคคลไปจนถึงองค์กรขนาดใหญ่ต่างพยายามอย่างหนักเพื่อให้สามารถเข้าถึงข้อมูลของตนได้อย่างปลอดภัย ในสถานการณ์นี้ Data Lake จะเข้ามาช่วยเหลือเราหรือไม่ ถ้าใช่ อย่างไร? อ่านผ่านบล็อกและรับความรู้แจ้ง!

ดาต้าเลคคืออะไร

สามารถกำหนดให้เป็นพื้นที่เก็บข้อมูลส่วนกลางซึ่งช่วยให้คุณแสดงข้อมูลที่มีโครงสร้างและไม่มีโครงสร้างทั้งหมดได้ในที่เดียว ส่วนที่ดีที่สุดคือคุณสามารถจัดเก็บได้เหมือนเดิมโดยไม่ต้องจัดโครงสร้างหรือวิเคราะห์ ก่อนที่คุณจะเริ่มคิดว่านี่เป็นแพลตฟอร์ม เราอยากบอกให้ชัดเจนว่านี่ไม่ใช่แพลตฟอร์ม เป็นข้อมูลก้อนใหญ่ที่ได้รับการจัดการบน Hadoop Data Lake กำลังได้รับความนิยมอย่างมาก เพราะไม่เพียงช่วยคุณจัดการข้อมูล แต่ยังได้รับประโยชน์จากมันด้วย

จะเห็นได้ว่าองค์กรที่สามารถสร้างมูลค่าจากข้อมูลได้สำเร็จมักจะมีประสิทธิภาพดีกว่าองค์กรอื่น แต่สิ่งนี้เกิดขึ้นได้อย่างไร? องค์กรต่างๆ สามารถทำการวิเคราะห์ข้อมูลประเภทต่างๆ ที่มีอยู่ใน Data Lake ของตนได้ ซึ่งช่วยให้พวกเขาระบุโอกาสใหม่ที่กำลังเติบโตได้โดยปราศจากความยุ่งยากใดๆ ด้วยวิธีนี้การเพิ่มประสิทธิภาพ การบำรุงรักษาอุปกรณ์ และการตัดสินใจในเชิงรุกจึงไม่ใช่เรื่องยากอีกต่อไป! บางคนอาจโต้แย้งว่าสิ่งนี้เหมือนกับคลังข้อมูล แต่ความจริงแล้วแตกต่างกันมาก! ทั้งคู่มีความสำคัญและผู้เชี่ยวชาญด้านข้อมูลไม่สามารถเลือกอย่างใดอย่างหนึ่งได้หรือจะทิ้งสิ่งอื่นทั้งหมดไปไม่ได้ ยิ่งไปกว่านั้น คุณสามารถใช้แมชชีนเลิร์นนิง การวิเคราะห์ และเครื่องมือวิเคราะห์อื่นๆ ได้ใน Data Lakes อย่างง่ายดายแทนที่จะเป็น Data Warehouse

Data Lakes:สิ่งเหล่านี้จะมาแทนที่ Data Warehouse หรือไม่

แหล่งที่มา:aws.amazon.com

สิ่งนี้แตกต่างจากคลังข้อมูลอย่างไร

แม้ว่าทั้งสองสิ่งนี้จะแตกต่างกัน แต่ก็ไม่ได้หมายความว่าคุณสามารถละทิ้งสิ่งอื่นได้ ขึ้นอยู่กับความต้องการ องค์กรอาจต้องการอย่างใดอย่างหนึ่งหรือทั้งสองอย่าง!

เมื่อพูดถึงความแตกต่าง จุดสำคัญของความแตกต่างระหว่างสองสิ่งนี้คือ data lake จะรับข้อมูลอย่างรวดเร็วและเตรียมข้อมูลในภายหลังเมื่อผู้คนเริ่มเข้าถึงข้อมูล ในทางกลับกัน ในกรณีของดาต้าแวร์เฮาส์ ข้อมูลจำเป็นต้องวิเคราะห์อย่างรอบคอบก่อนปล่อยเข้าคลัง เราไม่สามารถปฏิเสธได้ว่าการดึงข้อมูลผ่านแบบสอบถาม SQL นั้นเร็วกว่า แต่การจัดเรียงข้อมูลในรูปแบบที่เป็นระบบนั้นไม่ใช่เรื่องง่าย ในกรณีของ Data Lake การเรียกข้อมูลอาจใช้เวลานาน แต่คุณสามารถจัดเก็บข้อมูลได้อย่างง่ายดาย

องค์กรต่างๆ ตระหนักดีถึง Data Lakes และด้วยเหตุนี้จึงพยายามที่จะพัฒนาสู่ Data Lake จาก Data Warehouses หากต้องการทราบรายละเอียดเกี่ยวกับจุดแตกต่าง โปรดดูตารางด้านล่าง:

Data Lakes:สิ่งเหล่านี้จะมาแทนที่ Data Warehouse หรือไม่

แหล่งที่มา:aws.amazon.com

นอกจากนี้ เราไม่สามารถเพิกเฉยต่อข้อเท็จจริงที่ว่ารูปแบบการวิเคราะห์ต้องการแหล่งข้อมูลที่มีรายละเอียด และนั่นคือเหตุผลว่าทำไม Data Lake จึงมีค่าไม่น้อยไปกว่าขุมทรัพย์สำหรับการวิเคราะห์ข้อมูล! อย่างไรก็ตาม เราไม่สามารถเพิกเฉยต่อความจริงที่ว่า Data Lake ทำให้ข้อมูลใช้งานได้ แต่จำเป็นต้องมีกลไกที่กำหนดไว้สำหรับการจัดเก็บข้อมูล

มีอุปสรรคใดๆ ต่อ Data Lake หรือไม่

ใช่แน่นอน ไม่มีอะไรสมบูรณ์แบบ! ในกรณีของ data lake มีปัญหาบางอย่าง บางส่วนได้แก่:

การออกแบบ Data Lake

เนื่องจากบริษัทส่วนใหญ่อัปเกรดคลังข้อมูลเป็น Data Lake การออกแบบจึงไม่สำเร็จอย่างถูกต้อง เหตุผลเบื้องหลังคือความจริงที่ว่า Data Lakes นั้นง่ายกว่าและสามารถจัดเก็บข้อมูลดิบได้ ในขณะที่คลังข้อมูลต้องการรูปแบบที่มีโครงสร้างสูงสำหรับสิ่งเดียวกัน เราไม่สามารถย้ายจากที่หนึ่งไปยังอีกที่หนึ่งได้โดยไม่ปรับปรุงการออกแบบ เพราะหากเราล้มเหลว เราจะติดอยู่ในระหว่างนั้น

Data Lakes:สิ่งเหล่านี้จะมาแทนที่ Data Warehouse หรือไม่

ที่มา:in.pcmag.com

ความปลอดภัย

ขณะนี้ผู้โจมตีมีความพร้อมทั้งความรู้และเครื่องมือในการเจาะระบบของผู้อื่น ดังนั้น การรักษาข้อมูลอันมีค่าของคุณไว้ใน Data Lake โดยไม่เพิ่มระดับความปลอดภัยเพิ่มเติม อาจกลายเป็นความผิดพลาดครั้งใหญ่ที่สุดในชีวิตของคุณ ข้อมูลที่ไม่มีโครงสร้างสามารถแยกออกได้ง่ายหรือแม้แต่ช่วยเรียกค่าไถ่ในกรณีที่ไม่มีความปลอดภัย

ความพร้อมของผู้มีทักษะ

ใช่ เรากำลังปรับปรุงเทคโนโลยีการจัดเก็บข้อมูลแบบก้าวกระโดด แต่ก็ยังมีช่องว่างระหว่างทักษะที่จำเป็นและผู้เชี่ยวชาญที่มีอยู่ คนที่รู้เรื่องนี้และรู้วิธีจัดการกับระบบดังกล่าวมีจำนวนจำกัด แต่บริษัทต่าง ๆ มีการพัฒนาอย่างเร่งรีบโดยไม่คำนึงถึงสิ่งนี้

สิ่งเหล่านี้คือบางส่วนของปัญหาที่เรากำลังเผชิญกับความท้าทาย และผู้เชี่ยวชาญได้แจ้งให้ทราบว่ายังมีอีกมากมายที่จะนำเสนอเมื่อเราเริ่มใช้ Data Lakes ในสเกลใหญ่

โดยสรุป เราสามารถพูดได้ว่าเทคโนโลยีเกิดใหม่ใดๆ ก็ตามต้องใช้เวลาเพื่อปลดปล่อยศักยภาพอย่างเต็มที่ และสิ่งนี้ก็คาดหวังเช่นเดียวกัน อย่างไรก็ตาม ผู้ที่เริ่มต้นการเดินทางในตอนนี้จะได้รับประโยชน์อย่างแน่นอนในระยะยาว ดังนั้น คอยจับตาดูเพื่อนคนนี้ให้ดี เพราะนี่คือสิ่งใหม่และมีศักยภาพที่จะเติบโตเกินความคาดหมายของคุณ

คุณคิดอย่างไร? อย่าลืมพูดถึงมุมมองของคุณในส่วนความคิดเห็นด้านล่าง!