ทุกคนนิยาม Big Data ด้วยชุด 3 หรือ 4 หรือ 10 Vs. V เหล่านี้ให้คำจำกัดความของแนวคิด Big Data แก่เราจริง ๆ หรือเป็นอย่างอื่นที่พวกเขาพยายามบอกเรา เหตุผลหลักสำหรับการใช้ลักษณะเฉพาะแบบ V นี้คือการเน้นความท้าทายที่มาพร้อมกับ Big Data นี้ ความท้าทาย เช่น การจับ การทำความสะอาด การจัดการ การผสานรวม การจัดเก็บ การประมวลผล และอื่นๆ อีกมากมาย
V เหล่านี้กำลังให้คำแนะนำในการเตรียมตัวให้พร้อมสำหรับความท้าทายที่อาจเกิดขึ้น ความท้าทายที่อาจเกิดขึ้นเมื่อคุณเริ่มจัดการข้อมูลขนาดใหญ่ซึ่ง:
- เพิ่มขึ้นเป็นปริมาณมาก
- เติบโตอย่างรวดเร็ว
- สร้างสายพันธุ์ขนาดใหญ่
- การเปลี่ยนแปลงที่มีความแปรปรวนอย่างมาก
- ต้องใช้กระบวนการเพื่อรักษาความจริงให้คงอยู่
- ในการแปลงทำให้เห็นภาพขนาดใหญ่
- มีค่าที่ซ่อนอยู่มาก
V เหล่านี้อธิบายลักษณะสำคัญของ Big Data และกลยุทธ์ Big Data ที่องค์กรไม่สามารถละเลยได้ มาดู V ทั้งหมดที่มีส่วนสนับสนุนแอตทริบิวต์ต่างๆ ของ Big Data:
1. ปริมาณ:
ข้อมูล 100 เทราไบต์ถูกอัปโหลดไปยัง Facebook ทุกวัน Akamai วิเคราะห์ 75 ล้านเหตุการณ์ต่อวันเพื่อกำหนดเป้าหมายโฆษณาออนไลน์ Walmart จัดการธุรกรรมของลูกค้า 1 ล้านรายการทุกๆ ชั่วโมง 90% ของข้อมูลทั้งหมดที่เคยสร้างถูกสร้างขึ้นในช่วง 2 ปีที่ผ่านมา
ตัวเลขด้านบนแสดงให้เห็นความหมายอย่างแท้จริงเมื่อเราพูดว่าข้อมูลปริมาณมาก นี่เป็นลักษณะแรกของข้อมูลซึ่งทำให้เป็นข้อมูลขนาดใหญ่ ข้อมูลจำนวนมหาศาลนี้กลับสร้างความท้าทายให้เราในการจัดเก็บข้อมูลนี้
2. ความเร็ว:
1n ปี 1999 ทุกนาทีของทุกวัน เราอัปโหลดวิดีโอ 100 ชั่วโมงบน YouTube ส่งอีเมลมากกว่า 200 ล้านฉบับ และส่งทวีต 300,000 รายการ
ภายใต้ตัวเลขปริมาณเป็นแนวโน้มที่ยิ่งใหญ่กว่า ซึ่งก็คือ 90% ของข้อมูลที่มีอยู่ถูกสร้างขึ้นในช่วงสองปีที่ผ่านมา ซึ่งแสดงถึงความเร็วหรือความเร็วที่ข้อมูลกำลังถูกสร้าง จัดเก็บ วิเคราะห์ และแสดงภาพ
ความท้าทายที่องค์กรต้องมีคือการรับมือกับความเร็วมหาศาลที่ข้อมูลถูกสร้างและใช้งานแบบเรียลไทม์
3. ความหลากหลาย
ในอดีต ข้อมูลทั้งหมดที่สร้างขึ้นเป็นข้อมูลที่มีโครงสร้าง จัดวางอย่างเป็นระเบียบในคอลัมน์และแถว แต่วันเวลาเหล่านั้นได้สิ้นสุดลงแล้ว 90% ของข้อมูลที่สร้างขึ้นในปัจจุบันเป็นแบบไม่มีโครงสร้าง มีหลายรูปแบบตั้งแต่ข้อมูลเชิงพื้นที่ ไปจนถึงทวีตที่สามารถวิเคราะห์เนื้อหาและความรู้สึกได้ ไปจนถึงข้อมูลที่เป็นภาพเป็นภาพถ่ายและวิดีโอ
ความหลากหลายอธิบายถึงความท้าทายที่ใหญ่ที่สุดอย่างหนึ่งของข้อมูลขนาดใหญ่ สามารถไม่มีโครงสร้างและสามารถรวมข้อมูลประเภทต่างๆ มากมายตั้งแต่ XML ไปจนถึงวิดีโอไปจนถึง SMS การจัดระเบียบข้อมูลอย่างมีความหมายนั้นไม่ใช่เรื่องง่าย โดยเฉพาะอย่างยิ่งเมื่อข้อมูลมีการเปลี่ยนแปลงอย่างรวดเร็ว
4. ความแปรปรวน
ความแปรปรวนมักสับสนกับความหลากหลาย ตัวอย่างง่ายๆ ในการแยกแยะคือ ลองนึกถึงสตาร์บัคส์ ซึ่งมีรสชาติมากมายในกาแฟเย็น นี่คือความหลากหลาย สมมติว่าคุณซื้อ Cafe Mocha ทุกวัน และรสชาติและกลิ่นแตกต่างจากทุกวันก่อนเล็กน้อย มันคือความแปรปรวน
ความผันแปรในบริบทของข้อมูลขนาดใหญ่หมายถึงสิ่งที่แตกต่างกันเล็กน้อย หนึ่งคือจำนวนที่ไม่สอดคล้องกันในข้อมูล จำเป็นต้องพบสิ่งเหล่านี้โดยวิธีการตรวจจับความผิดปกติและค่าผิดปกติ เพื่อให้เกิดการวิเคราะห์ที่มีความหมาย ข้อมูลขนาดใหญ่ยังเป็นตัวแปรเนื่องจากมิติข้อมูลจำนวนมากซึ่งเป็นผลมาจากประเภทข้อมูลและแหล่งข้อมูลที่แตกต่างกันหลายประเภท ความแปรปรวนยังสามารถอ้างถึงความเร็วที่ไม่สอดคล้องกันในการโหลดข้อมูลขนาดใหญ่ลงในฐานข้อมูลของคุณ
5. ความจริงใจ
สิ่งสำคัญในการทำความเข้าใจ Big Data คือความยุ่งเหยิง ความวุ่นวาย และปริมาณงานที่ต้องใช้ในการผลิตชุดข้อมูลที่ถูกต้องก่อนที่การวิเคราะห์จะเริ่มต้นด้วยซ้ำ ไม่มีประโยชน์หากข้อมูลที่กำลังวิเคราะห์ไม่ถูกต้องหรือไม่สมบูรณ์
สถานการณ์นี้เกิดขึ้นเมื่อสตรีมข้อมูลมาจากแหล่งที่มาที่หลากหลาย ซึ่งนำเสนอรูปแบบที่หลากหลายโดยมีอัตราส่วนสัญญาณต่อสัญญาณรบกวนที่แตกต่างกัน อาจเต็มไปด้วยข้อผิดพลาดที่สะสมนี้เมื่อถึงเวลาสำหรับการวิเคราะห์ข้อมูลขนาดใหญ่
ความจริงคือการทำให้แน่ใจว่าข้อมูลถูกต้อง ซึ่งต้องใช้กระบวนการเพื่อป้องกันไม่ให้ข้อมูลที่ไม่ดีสะสมอยู่ในระบบของคุณ ตัวอย่างที่ง่ายที่สุดคือผู้ติดต่อที่เข้าสู่ระบบการตลาดอัตโนมัติของคุณด้วยชื่อปลอมและข้อมูลการติดต่อที่ไม่ถูกต้อง คุณเห็นมิกกี้เมาส์ในฐานข้อมูลของคุณกี่ครั้งแล้ว? เป็นความท้าทายแบบคลาสสิก "ขยะเข้า ขยะออก"
6. การสร้างภาพ
นี่คือส่วนที่ยากของ Big Data ความล้มเหลวซึ่งทำให้ข้อมูลจำนวนมหาศาลไร้ประโยชน์ งานหลักสำหรับระบบประมวลผล Big Data คือการแปลงขนาดมหึมาของมันให้เป็นสิ่งที่เข้าใจได้ง่ายและนำไปปฏิบัติได้ สำหรับการบริโภคของมนุษย์ วิธีที่ดีที่สุดวิธีหนึ่งคือการแปลงเป็นรูปแบบกราฟิก
เครื่องมือสร้างภาพข้อมูลขนาดใหญ่ในปัจจุบันเผชิญกับความท้าทายทางเทคนิคเนื่องจากข้อจำกัดของเทคโนโลยีในหน่วยความจำและความสามารถในการปรับขนาด ฟังก์ชันการทำงาน และเวลาตอบสนองที่ต่ำ กราฟแบบดั้งเดิมไม่สามารถตอบสนองความต้องการในการลงจุดข้อมูลนับพันล้านจุดได้ ดังนั้นคุณจึงต้องการวิธีต่างๆ ในการแสดงข้อมูล เช่น การจัดกลุ่มข้อมูลหรือการใช้แผนผังต้นไม้ ซันเบิร์สต์ พิกัดคู่ขนาน แผนภาพเครือข่ายแบบวงกลมหรือต้นไม้รูปกรวย
7. ค่า
คุณค่าคือเกมสุดท้าย มูลค่าที่เป็นไปได้ของ Big Data นั้นมหาศาล หลังจากดูแลปริมาณ ความเร็ว ความหลากหลาย ความแปรปรวน ความจริง และการแสดงภาพ ซึ่งต้องใช้เวลาและความพยายามอย่างมาก สิ่งสำคัญคือต้องแน่ใจว่าองค์กรของคุณได้รับคุณค่าจากข้อมูล
แน่นอนว่าข้อมูลในตัวมันเองนั้นไม่มีค่าเลย คุณค่าอยู่ที่การวิเคราะห์ที่ทำกับข้อมูลนั้นและวิธีที่ข้อมูลเปลี่ยนเป็นข้อมูลและเปลี่ยนเป็นความรู้ในที่สุด
7 V’s ด้านบนจะบอกคุณเกี่ยวกับลักษณะสำคัญ 3 ประการของ Big Data ได้แก่ คำจำกัดความ คุณลักษณะ และความท้าทาย แต่เมื่อผู้คนเริ่มทำการค้นคว้าเกี่ยวกับข้อมูลขนาดใหญ่เพื่อคิดค้นวิธีการที่จะเผชิญกับความท้าทายของ 7 V ที่กล่าวมาข้างต้น พวกเขาก็ได้พบกับ V อื่น ๆ แม้ว่าพวกเขาจะไม่ได้มีส่วนสำคัญดังกล่าวในข้อมูลขนาดใหญ่ แต่ก็ทำให้รายการคุณลักษณะและความท้าทายเสร็จสมบูรณ์
8. ความถูกต้อง
คล้ายกับความจริง ความถูกต้องหมายถึงความถูกต้องของข้อมูลสำหรับการใช้งานตามวัตถุประสงค์ ความถูกต้องของข้อมูลขนาดใหญ่เป็นเรื่องของความถูกต้อง หมายความว่าข้อมูลถูกต้องและแม่นยำสำหรับการใช้งานตามวัตถุประสงค์ ข้อมูลที่ถูกต้องชัดเจนเป็นกุญแจสำคัญในการตัดสินใจที่ถูกต้อง การตรวจสอบข้อมูลเป็นการรับรองการส่งข้อมูลที่ไม่เสียหาย
9. ความมีชีวิต
ลองพิจารณาข้อความด้านล่างนี้:
- ช่วงเวลาของวันหรือวันในสัปดาห์มีผลอย่างไรต่อพฤติกรรมการซื้อ
- การเพิ่มขึ้นอย่างรวดเร็วใน Twitter หรือ Facebook กล่าวถึงการคาดการณ์ล่วงหน้าว่าจะมีการซื้อเพิ่มขึ้นหรือลดลงหรือไม่
- ตำแหน่งทางภูมิศาสตร์ ความพร้อมใช้งานของผลิตภัณฑ์ ช่วงเวลาของวัน ประวัติการซื้อ อายุ ขนาดของครอบครัว วงเงินสินเชื่อ และประเภทยานพาหนะทั้งหมดจะมาบรรจบกันเพื่อทำนายแนวโน้มการซื้อของผู้บริโภคได้อย่างไร
งานแรกของเราคือการประเมินความมีชีวิตของข้อมูลนั้น เนื่องจากมีข้อมูลและตัวแปรมากมายที่ต้องพิจารณาในการสร้างแบบจำลองการคาดการณ์ที่มีประสิทธิภาพ เราต้องการได้อย่างรวดเร็วและประหยัดค่าใช้จ่าย ทดสอบและยืนยันความเกี่ยวข้องของตัวแปรอย่างมีประสิทธิภาพก่อนที่จะลงทุนสร้างแบบจำลองที่มีคุณลักษณะครบถ้วน กล่าวอีกนัยหนึ่ง เราต้องการตรวจสอบสมมติฐานนั้นก่อนที่เราจะดำเนินการต่อไป และในกระบวนการพิจารณาความมีชีวิตของตัวแปร เราสามารถขยายมุมมองของเราเพื่อพิจารณาว่าตัวแปรอื่นๆ ซึ่งไม่ได้เป็นส่วนหนึ่งของสมมติฐานเริ่มต้นของเรามี ผลกระทบที่มีความหมายต่อผลลัพธ์ที่ต้องการหรือที่สังเกตได้ของเรา
10. ความผันผวน
ข้อมูลของคุณต้องมีอายุเท่าใดจึงจะถือว่าไม่เกี่ยวข้อง มีประวัติ หรือไม่มีประโยชน์อีกต่อไป ต้องเก็บข้อมูลไว้นานแค่ไหน
เมื่อเราพูดถึงความผันผวนของ Big Data เราสามารถนึกถึงนโยบายการเก็บรักษาข้อมูลที่มีโครงสร้างซึ่งเราใช้กันทุกวันในธุรกิจของเราได้อย่างง่ายดาย เมื่อระยะเวลาเก็บรักษาหมดลง เราสามารถทำลายมันได้อย่างง่ายดาย
เนื่องจากความเร็วและปริมาณของข้อมูลขนาดใหญ่ ความผันผวนจำเป็นต้องได้รับการพิจารณาอย่างรอบคอบ ตอนนี้คุณต้องสร้างกฎสำหรับสกุลเงินของข้อมูลและความพร้อมใช้งาน รวมทั้งรับรองการดึงข้อมูลอย่างรวดเร็วเมื่อจำเป็น
11. ช่องโหว่
คุณจำ Ashley Madison Hack ในปี 2015 ได้ไหม หรือคุณจำได้ไหมว่าในเดือนพฤษภาคม 2016 CRN รายงานว่า “แฮ็กเกอร์ชื่อ Peace โพสต์ข้อมูลบนเว็บมืดเพื่อขาย ซึ่งถูกกล่าวหาว่ารวมข้อมูลเกี่ยวกับบัญชี LinkedIn 167 ล้านบัญชี และอีเมลและรหัสผ่าน 360 ล้านฉบับสำหรับผู้ใช้ MySPace
ข้อมูลขนาดใหญ่นำมาซึ่งความกังวลด้านความปลอดภัยแบบใหม่ โดยเฉพาะอย่างยิ่งด้วยลักษณะเหล่านี้ การพัฒนาโปรแกรมความปลอดภัยสำหรับ Big Data จึงกลายเป็นความท้าทาย ท้ายที่สุด การละเมิดข้อมูลถือเป็นการละเมิดครั้งใหญ่
ทั้งหมดนี้บอกอะไรเราเกี่ยวกับธรรมชาติของ Big Data มันมีขนาดใหญ่และขยายตัวอย่างรวดเร็ว แต่ก็มีเสียงดัง ยุ่งเหยิง เปลี่ยนแปลงตลอดเวลาในหลายร้อยรูปแบบ และแทบไม่มีค่าเลยหากไม่มีการวิเคราะห์และการแสดงภาพ
ปริมาณ ความเร็ว และความหลากหลายไม่ได้เป็นเพียงตัวแปรสำคัญของ Big Data เท่านั้น แต่ยังเป็นสาเหตุที่ทำให้เกิดแนวคิดของ Big Data และคุณสมบัติหลักที่แยกระหว่าง ข้อมูลปกติและข้อมูลขนาดใหญ่ แม้ว่าสิ่งเหล่านี้จะอยู่ภายในตัวของ Big Data แต่ความแปรปรวน ความจริง การแสดงภาพ และมูลค่าของ V อื่นๆ เป็นคุณลักษณะสำคัญที่สะท้อนถึงความซับซ้อนขนาดมหึมาที่ Big Data นำเสนอต่อผู้ที่จะประมวลผล วิเคราะห์ และได้รับประโยชน์จากมัน
ไม่ต้องสงสัยเลยว่า Big Data เป็นเทรนด์หลักที่ฝ่ายไอทีขององค์กรต้องรองรับด้วยโครงสร้างพื้นฐานด้านคอมพิวเตอร์ที่เหมาะสม แต่หากไม่มีการวิเคราะห์ประสิทธิภาพสูงและนักวิทยาศาสตร์ข้อมูลที่เข้าใจทั้งหมด คุณก็เสี่ยงที่จะสร้าง Big Costs โดยไม่สร้างมูลค่าที่แปลงเป็นข้อได้เปรียบทางธุรกิจ