Computer >> คอมพิวเตอร์ >  >> การเขียนโปรแกรม >> ฐานข้อมูล

Data Lakes คืออะไรและทำไมคุณถึงต้องสนใจ

ในช่วงไม่กี่ปีที่ผ่านมา Data Lakes ได้ย้ายจากแหล่งเทคโนโลยีไปสู่อสังหาริมทรัพย์ริมชายหาดชั้นนำของวิทยาศาสตร์ข้อมูล เหตุใดจึงเกิดขึ้น และเหตุใดจึงสำคัญ คำตอบสั้นๆ … มีค่าอยู่ในนั้น

ข้อมูลมีค่า

ยิ่งเห็นได้ชัดว่าข้อมูลของบริษัทมีมูลค่ามหาศาล ยักษ์ใหญ่อินเทอร์เน็ตเช่น Google, Facebook และอื่น ๆ มูลค่าของพวกเขาส่วนใหญ่มาจากข้อมูลของพวกเขา แต่คุณไม่จำเป็นต้องเป็นยักษ์ใหญ่ด้านอินเทอร์เน็ตเพื่อรับคุณค่าจากข้อมูลของคุณ บริษัทอุตสาหกรรมใช้ข้อมูลเพื่อคาดการณ์ความล้มเหลวของเครื่องจักร โดยสถาบันการเงินเพื่อจัดการความเสี่ยงให้ดีขึ้น โดยผู้ค้าปลีกออนไลน์เพื่อเพิ่มการรักษาลูกค้า และโดยสถาบันอื่นๆ อีกนับไม่ถ้วนเพื่อค้นหาข้อมูลเชิงลึกใหม่ๆ ดูเหมือนสูตรที่ค่อนข้างง่าย:ป้อนข้อมูลไปยังเครื่องมือวิเคราะห์ธุรกิจหรือระบบการเรียนรู้ของเครื่อง (ML) และรับข้อมูลเชิงลึก ความจริงมันไม่ง่ายอย่างนั้น เราต้องปฏิบัติตามข้อกำหนดเบื้องต้นที่จำเป็นก่อนจึงจะสามารถจัดการกับปัญหาการวิเคราะห์ได้ เราต้องมีข้อมูลที่มีข้อมูลเชิงลึกจริงๆ

นี่ไม่ใช่แค่โซลูชันคลังข้อมูลอื่นใช่หรือไม่

คุณอาจกำลังคิดว่า "นี่ไม่ใช่คลังข้อมูลปัญหาที่แก้ปัญหาได้หรอกหรือ" ไม่ได้จริงๆ คลังข้อมูลถูกสร้างขึ้นเพื่อแก้ปัญหาทางธุรกิจที่กำหนดไว้ การนำเข้าข้อมูลใน Datawarehouse ใช้เวิร์กโฟลว์การแยก การแปลง โหลด (ETL) Datais แยกจากระบบต้นทาง แปลงเป็นโครงสร้างของคลังข้อมูล แล้วโหลดลงในคลังข้อมูล ถึงเวลานี้ ข้อมูลได้รับการจัดโครงสร้าง กรอง และจัดการอย่างอื่นแล้ว เพื่อแยกข้อมูลที่ไม่เกี่ยวข้องกับชุดปัญหาทางธุรกิจที่กำหนดไว้ ในกระบวนการ ETL เราได้เก็บค่าข้อมูลบางส่วนไว้โดยปริยายหรือโดยชัดแจ้ง และละทิ้งข้อมูลอื่น เพิ่มข้อมูล สร้างความสัมพันธ์ระหว่างรายการข้อมูล และละเลยข้อมูลอื่นๆ จะเป็นอย่างไรหากพบปัญหาทางธุรกิจใหม่ซึ่งต้องการข้อมูลที่ถูกละทิ้งสภาพแวดล้อมทางธุรกิจมีการเปลี่ยนแปลงอยู่เสมอ และปัญหาในอนาคตไม่สามารถคาดเดาได้ ไม่ว่ากระบวนการ ETL ที่ถูกต้องเพียงใดสำหรับชุดปัญหาทางธุรกิจในปัจจุบัน มูลค่าที่อาจเกิดขึ้นในอนาคตจำนวนมหาศาลกำลังถูกค้นพบ สูญเสียโดยการตัดสินใจเหล่านี้เมื่อเติมคลังข้อมูล

ป้อน Data Lakes

เพื่อที่จะรักษามูลค่าที่เป็นไปได้ให้ได้มากที่สุด เราไม่สามารถละทิ้งข้อมูลเดิมได้ ทำไมเราไม่เพียงแค่เก็บข้อมูลทั้งหมดในรูปแบบดิบและตัดสินใจว่าจะใช้อย่างไรในภายหลัง เราสามารถปล่อยให้ข้อมูลไหลเหมือนแม่น้ำไปยังพื้นที่เก็บข้อมูลส่วนกลาง ก่อตัวเป็น "ทะเลสาบ" ของ "ข้อมูล" :) ใช้วิธีอื่น ดึงข้อมูลและจัดเก็บข้อมูล จากนั้นแปลงและโหลดตามต้องการ (มักเรียกว่า Extract, Load, andTransform, ELT – transposing the 'T' and the 'L' in ETL)

ในอดีต ค่าใช้จ่ายในการจัดเก็บและการแยกโครงสร้างที่มีความหมายในอนาคตข้างหน้านั้นมีค่ามากกว่ามูลค่าที่เป็นไปได้ของข้อมูลที่อาจมีอยู่ อย่างไรก็ตาม ค่าใช้จ่ายในการจัดเก็บและค่าใช้จ่ายในการกลั่นโครงสร้างที่มีประโยชน์จากความโกลาหลลดลง ทำให้ประหยัดมากขึ้นสำหรับข้อมูลเพิ่มเติมและ บริษัทอื่นๆ ก็ทำแบบนั้นได้

การรวบรวมข้อมูลดิบใดๆ ที่เป็น Data Lake ใช่ไหม

ตกลงง่ายพอ เพียงแค่ถ่ายโอนข้อมูลดิบทั้งหมดลงในที่เดียวและเสร็จสิ้นใช่ไหม? ไกลจากมัน! การนำเข้าข้อมูลจะต้องดำเนินการอย่างเหมาะสมเพื่อปกป้องลูกค้า บริษัท และข้อมูล ในขณะเดียวกันก็ทำให้ข้อมูลดังกล่าวพร้อมสำหรับนักวิทยาศาสตร์ด้านข้อมูลและนักวิเคราะห์ในอนาคต ในการทำเช่นนี้ เราต้องพิจารณาปัจจัยสำคัญหลายประการ

  • นักวิทยาศาสตร์ด้านข้อมูลและนักวิเคราะห์ในอนาคตจะค้นพบสิ่งที่พวกเขากำลังมองหาได้อย่างไรข้อมูลดิบจะต้องได้รับการจัดทำดัชนี

  • ข้อมูลจะถูกดึงออกมาอย่างมีประสิทธิภาพได้อย่างไร? ข้อมูลต้องจัดเก็บในรูปแบบไฟล์ที่มีประสิทธิภาพ เช่น รูปแบบคอลัมน์

  • แล้วข้อมูลส่วนบุคคลที่สามารถระบุตัวตนได้ (PII) ข้อมูลสุขภาพที่ได้รับการคุ้มครอง (PHI) ข้อมูลผู้ถือบัตร (CD) และข้อมูลละเอียดอ่อนอื่นๆ ล่ะ จำเป็นต้องสร้างความสับสนของข้อมูล

  • คุณจะจัดการกับความเป็นส่วนตัวของข้อมูลอย่างไร (เช่น GDPR) อำนาจอธิปไตยของข้อมูล และการควบคุมการเข้าถึง เพื่อให้คุณไม่ตกเป็นข่าวพาดหัวเรื่องการละเมิดข้อมูลอื่น ต้องใช้การจัดการข้อมูลประจำตัวและการเข้าถึงเพื่อใช้การอนุญาตที่เหมาะสมและการควบคุมการเข้าถึง

แล้วการขจัดข้อมูลซ้ำซ้อนหรือบันทึกการจับคู่ที่ไม่มีคีย์ระบุตัวตนร่วมกันล่ะ คือ 123 Main St, Some Town, USA ตำแหน่งเดียวกับ 123 Main Street,Some Town, USA ? แล้ว โรเบิร์ต สมิธ และ บ็อบ สมิธ ? อย่างที่คุณสามารถจินตนาการได้ นี่เป็นสถานการณ์ง่ายๆ มีสถานการณ์ที่ซับซ้อนมากขึ้นในชุดข้อมูลจริง

เมื่อข้อมูลอยู่ใน Data Lake และมีการจัดทำดัชนีและการควบคุมที่เหมาะสมแล้ว จะต้องแปลงให้อยู่ในรูปแบบที่มีโครงสร้างก่อนจึงจะสามารถใช้งานได้ โดยทั่วไปหมายถึงการใช้สคีมาแบบทันเวลาพอดีตามที่อ่าน รูปแบบแหล่งที่มาของ raw ต่างๆ ถูกฉายลงในโครงสร้างที่รู้จัก เพื่อให้สามารถใช้โดยระบบ ML, คลังสินค้า หรือ Business Intelligence (BI) (ฉันชอบเรียกกระบวนการนี้ว่า EtS-TL, Extract transform Store – Transform and Load เนื่องจากการแปลงข้อมูลแบบไม่สูญเสียข้อมูลจะดำเนินการเมื่อข้อมูลเข้าสู่ทะเลสาบ แต่การอภิปรายเรื่องศัพท์เป็นหัวข้อสำหรับช่วงเวลาอื่น)

การใช้ข้อมูล

ขณะนี้ข้อมูลอยู่ในทะเลสาบ แต่ไม่สามารถใช้ในรูปแบบปัจจุบันได้ การตัดสินใจเกี่ยวกับการแปลงข้อมูลที่ล่าช้าจะต้องตัดสินใจในตอนนี้ เมื่อตัดสินใจเลือกแบบแผนและดึงข้อมูลแล้ว จะต้องทำความสะอาดด้วยวิธีเฉพาะของสคีมา ข้อมูลที่ไม่ถูกต้องสำหรับสคีมา/การวิเคราะห์หนึ่งอาจใช้ได้อย่างสมบูรณ์สำหรับอีกรูปแบบหนึ่ง ตัวอย่างเช่น พิจารณาชุดข้อมูลความเป็นเจ้าของที่ดินที่มีชื่อเจ้าของ ที่อยู่ทรัพย์สิน มูลค่าทรัพย์สิน การชำระเงินค้างชำระ การใช้ที่ดิน (เช่น ที่อยู่อาศัย อาคารสำนักงาน หรืออุตสาหกรรม) และเลขที่บัญชีภาษีโรงเรือน การพิจารณาว่ามีความสัมพันธ์กันระหว่างการใช้ที่ดินกับการกระทำผิดในการชำระเงินหรือไม่ ไม่จำเป็นต้องมีชื่อเจ้าของ ในเวลาเดียวกัน การค้นหาความสัมพันธ์ระหว่างมูลค่าทรัพย์สินและการใช้ที่ดินไม่จำเป็นต้องมีข้อมูลการกระทำผิด หากรายการ adata หายไปจากแถวในส่วนข้อมูลหนึ่ง รายการนั้นจะไม่ทำให้แถวเดียวกันสำหรับส่วนข้อมูลอื่นเป็นโมฆะ Data Lakes ช่วยให้คุณเปิดตัวเลือกการวิเคราะห์ข้อมูลไว้ได้ แต่มาพร้อมกับความซับซ้อนและค่าใช้จ่าย

เมื่อขั้นตอนทั้งหมดเหล่านี้เสร็จสิ้น เราก็มาถึงจุดที่เครื่องมือวิเคราะห์ข้อมูล ระบบ BI หรือแบบจำลอง ML ของเราสามารถเริ่มทำงานได้ อย่างไรก็ตาม ด้วยการใช้ประโยชน์จาก adata lake เราไม่ได้ทำลายมูลค่าที่อาจเกิดขึ้นในอนาคตที่พบในข้อมูลโดยไม่ได้ตั้งใจ สามารถสำรวจคำถามทางธุรกิจในอนาคตได้โดยไม่ต้องให้เรารู้อนาคต

สรุป

แม้ว่าคลังข้อมูลจะถูกกรอง จัดเตรียม และพร้อมใช้งาน แต่ Data Lake กลับเป็นอ่างเก็บน้ำ ซึ่งไม่ได้ตั้งใจให้บริโภคในรูปแบบดิบ ต้องเตรียมข้อมูลในข้อมูลก่อนจึงจะบริโภคได้ เช่นเดียวกับอ่างเก็บน้ำอื่น ๆ พวกเขาต้องได้รับการจัดการอย่างเหมาะสมเพื่อให้พร้อมสำหรับการบริโภคในอนาคต สิ่งนี้ทำได้โดยการจัดการการไหลเข้า (รูปแบบไฟล์ที่เก็บข้อมูลและการทำให้ข้อมูลสับสน) การทำความเข้าใจเนื้อหา (การจัดทำดัชนีและการขจัดข้อมูลซ้ำซ้อน) การรักษาความปลอดภัยจากการใช้ในทางที่ผิด (การจัดการข้อมูลประจำตัวและการเข้าถึง) และสิ่งอำนวยความสะดวกในการทำให้บริสุทธิ์ (การดึงข้อมูล การประยุกต์ใช้สคีมา และการล้างข้อมูล)

ส่วนปลายของภูเขาน้ำแข็ง

โชคดีที่ในยุคคลาวด์ เราไม่จำเป็นต้องม้วนเครื่องมือและเทคโนโลยีของเราเองเพื่อปรับใช้ดาต้าเลค ตัวอย่างเช่น AWS Lake Formation จัดการกับปัญหาเครื่องมือและเทคโนโลยีที่เกี่ยวข้องโดยตรงกับ Data Lake เอง อย่างไรก็ตาม ยังมีคำถามยากๆ อีกหลายข้อที่ยังหลงเหลืออยู่ คุณรู้วิธีใช้เครื่องมือเหล่านี้อย่างถูกต้องหรือไม่? คุณมีความเชี่ยวชาญในการตั้งค่าการเชื่อมต่อเครือข่ายที่เหมาะสมเพื่ออนุญาตข้อมูลของคุณหรือไม่? VPN เพียงพอหรือคุณต้องการวงจรเฉพาะ (Direct Connect) หรือไม่? คุณกำลังใส่ข้อมูลของบริษัทลงในระบบคลาวด์ คุณแน่ใจหรือไม่ว่าได้รักษาความปลอดภัยอย่างถูกต้องเพื่อป้องกันการเข้าถึงโดยไม่ได้รับอนุญาต คุณเข้าถึงข้อมูลด้วยวิธีที่คุ้มค่าหรือไม่? จำไว้ว่าการโอนออกไม่ฟรี

ที่ Rackspace เรามี Cloud Architects และผู้เชี่ยวชาญที่จะช่วยให้คุณสร้าง Data Lake ได้อย่างรวดเร็ว ปลอดภัย และมีประสิทธิภาพ โทรหาเราที่ Rackspace Managed AWS สำหรับข้อมูลเพิ่มเติม

ใช้แท็บคำติชมเพื่อแสดงความคิดเห็นหรือถามคำถาม