'บิ๊กดาต้า' คือการประยุกต์ใช้เทคนิคและเทคโนโลยีพิเศษเพื่อประมวลผลชุดข้อมูลขนาดใหญ่มาก ชุดข้อมูลเหล่านี้มักมีขนาดใหญ่และซับซ้อนจนยากต่อการประมวลผลโดยใช้เครื่องมือจัดการฐานข้อมูลคงเหลือ
การเติบโตอย่างก้าวกระโดดของเทคโนโลยีสารสนเทศได้นำไปสู่เงื่อนไขต่างๆ มากมายในอุตสาหกรรมนี้ หนึ่งในผลลัพธ์ที่คงอยู่และคงอยู่ในปัจจุบันมากที่สุด คือการมีอยู่ของข้อมูลขนาดใหญ่ คำว่า Big Data เป็นวลีติดปากที่บัญญัติขึ้นเพื่ออธิบายการมีอยู่ของข้อมูลจำนวนมหาศาล ผลลัพธ์ของการมีข้อมูลจำนวนมากเช่นนี้คือการวิเคราะห์ข้อมูล
การวิเคราะห์ข้อมูลคือกระบวนการจัดโครงสร้างข้อมูลขนาดใหญ่ ภายใน Big Data มีรูปแบบและความสัมพันธ์ที่แตกต่างกันซึ่งทำให้การวิเคราะห์ข้อมูลสามารถกำหนดลักษณะของข้อมูลที่คำนวณได้ดีขึ้น ทำให้การวิเคราะห์ข้อมูลเป็นส่วนสำคัญที่สุดของเทคโนโลยีสารสนเทศ
ดังนั้น ที่นี่ฉันแสดงรายการเทคนิคการวิเคราะห์ข้อมูลขนาดใหญ่ 26 รายการ รายการนี้ไม่ได้ครอบคลุมทั้งหมด
-
การทดสอบ A/B
การทดสอบ A/B เป็นเครื่องมือประเมินสำหรับการระบุว่าหน้าเว็บหรือแอปเวอร์ชันใดช่วยให้องค์กรหรือบุคคลบรรลุเป้าหมายทางธุรกิจได้อย่างมีประสิทธิภาพมากขึ้น การตัดสินใจนี้ดำเนินการโดยการเปรียบเทียบว่ารุ่นใดทำงานได้ดีกว่ากัน การทดสอบ A/B มักใช้ในการพัฒนาเว็บเพื่อให้แน่ใจว่าการเปลี่ยนแปลงหน้าเว็บหรือส่วนประกอบของหน้าเว็บนั้นขับเคลื่อนด้วยข้อมูล ไม่ใช่ความคิดเห็นส่วนตัว
เรียกอีกอย่างว่าการทดสอบที่หกหรือการทดสอบถัง
-
การเรียนรู้กฎการเชื่อมโยง
ชุดเทคนิคสำหรับการค้นหาความสัมพันธ์ที่น่าสนใจ เช่น "กฎการเชื่อมโยง" ระหว่างตัวแปรในฐานข้อมูลขนาดใหญ่ เทคนิคเหล่านี้ประกอบด้วยอัลกอริทึมที่หลากหลายเพื่อสร้างและทดสอบกฎที่เป็นไปได้
แอปพลิเคชันหนึ่งคือการวิเคราะห์ตะกร้าตลาด ซึ่งผู้ค้าปลีกสามารถระบุได้ว่าผลิตภัณฑ์ใดที่มีการซื้อร่วมกันบ่อยๆ และใช้ข้อมูลนี้เพื่อการตลาด (ตัวอย่างที่อ้างถึงโดยทั่วไปคือการค้นพบว่าผู้ซื้อในซูเปอร์มาร์เก็ตจำนวนมากที่ซื้อนาโชส์ก็ซื้อเบียร์ด้วย)
-
การวิเคราะห์แผนผังการจำแนกประเภท
การจำแนกประเภททางสถิติเป็นวิธีการระบุหมวดหมู่ที่เป็นของข้อสังเกตใหม่ จำเป็นต้องมีชุดการฝึกสำหรับการสังเกตที่ระบุอย่างถูกต้อง – หรืออีกนัยหนึ่งคือข้อมูลในอดีต
มีการใช้การจัดประเภททางสถิติเพื่อ:
- กำหนดเอกสารให้เป็นหมวดหมู่โดยอัตโนมัติ
- จัดหมวดหมู่สิ่งมีชีวิตออกเป็นกลุ่มๆ
- พัฒนาโปรไฟล์ของนักเรียนที่เรียนหลักสูตรออนไลน์
-
การวิเคราะห์คลัสเตอร์
วิธีการทางสถิติสำหรับการจำแนกวัตถุที่แยกกลุ่มที่หลากหลายออกเป็นกลุ่มย่อยๆ ของวัตถุที่คล้ายกัน ซึ่งไม่ทราบลักษณะของความคล้ายคลึงกันล่วงหน้า ตัวอย่างของการวิเคราะห์คลัสเตอร์คือการแบ่งกลุ่มผู้บริโภคออกเป็นกลุ่มที่มีลักษณะคล้ายคลึงกันสำหรับการตลาดแบบกำหนดเป้าหมาย ใช้สำหรับการขุดข้อมูล
-
การจัดหาฝูงชน
ในการระดมทุนแบบคราวด์ซอร์ส ความแตกต่างคือ งานหรืองานหนึ่งๆ ได้รับการว่าจ้างจากภายนอก แต่ไม่ใช่สำหรับมืออาชีพหรือองค์กรที่กำหนด แต่เป็นการจ้างบุคคลทั่วไปในรูปแบบของการโทรแบบเปิด Crowdsourcing เป็นเทคนิคที่สามารถนำไปใช้เพื่อรวบรวมข้อมูลจากแหล่งต่างๆ เช่น ข้อความ การอัปเดตโซเชียลมีเดีย บล็อก ฯลฯ นี่คือประเภทของการทำงานร่วมกันจำนวนมากและตัวอย่างของการใช้เว็บ
-
การรวมข้อมูลและการรวมข้อมูล
กระบวนการหลายระดับที่เกี่ยวข้องกับการเชื่อมโยง ความสัมพันธ์ การรวมข้อมูลและข้อมูลจากแหล่งเดียวและหลายแหล่งเพื่อให้ได้ตำแหน่งที่ละเอียด ระบุการประมาณการและการประเมินสถานการณ์ที่สมบูรณ์และทันท่วงที ภัยคุกคามและความสำคัญ
เทคนิคการหลอมรวมข้อมูลจะรวมข้อมูลจากเซ็นเซอร์หลายตัวและข้อมูลที่เกี่ยวข้องจากฐานข้อมูลที่เกี่ยวข้องเพื่อให้ได้รับการปรับปรุงความแม่นยำและการอนุมานที่เฉพาะเจาะจงมากกว่าที่ทำได้โดยใช้เซ็นเซอร์ตัวเดียวเพียงอย่างเดียวพี>
-
ขุดข้อมูล
เหมืองข้อมูลคือการจัดเรียงข้อมูลเพื่อระบุรูปแบบและสร้างความสัมพันธ์ การทำเหมืองข้อมูลหมายถึงเทคนิคการดึงข้อมูลแบบรวมที่ทำกับข้อมูลปริมาณมาก พารามิเตอร์การทำเหมืองข้อมูล ได้แก่ การเชื่อมโยง การวิเคราะห์ลำดับ การจัดประเภท การจัดกลุ่ม และการพยากรณ์
แอปพลิเคชันรวมถึงการขุดข้อมูลลูกค้าเพื่อกำหนดกลุ่มที่มีแนวโน้มมากที่สุดที่จะตอบสนองต่อข้อเสนอ การขุดข้อมูลทรัพยากรบุคคลเพื่อระบุลักษณะของพนักงานที่ประสบความสำเร็จมากที่สุด หรือการวิเคราะห์ตะกร้าตลาดเพื่อสร้างแบบจำลองพฤติกรรมการซื้อ ของลูกค้า
-
รวมการเรียนรู้
เป็นศิลปะของการรวมชุดของอัลกอริทึมการเรียนรู้ที่หลากหลายเข้าด้วยกันเพื่อด้นสดบนความเสถียรและพลังการทำนายของโมเดล นี่คือประเภทของการเรียนรู้แบบมีผู้สอน
-
ขั้นตอนวิธีการเชิงพันธุกรรม
เทคนิคการเพิ่มประสิทธิภาพที่ใช้กระบวนการต่างๆ เช่น การผสมทางพันธุกรรม การกลายพันธุ์ และการคัดเลือกโดยธรรมชาติในการออกแบบตามแนวคิดของวิวัฒนาการตามธรรมชาติ อัลกอริธึมเชิงพันธุกรรมเป็นเทคนิคที่ใช้ในการระบุวิดีโอ รายการทีวี และสื่อรูปแบบอื่นๆ ที่มีคนดูมากที่สุด มีรูปแบบวิวัฒนาการที่สามารถทำได้โดยใช้ขั้นตอนวิธีทางพันธุกรรม การวิเคราะห์วิดีโอและสื่อสามารถทำได้โดยใช้อัลกอริทึมทางพันธุกรรม
-
แมชชีนเลิร์นนิง
แมชชีนเลิร์นนิงเป็นอีกเทคนิคหนึ่งที่สามารถใช้เพื่อจัดหมวดหมู่และกำหนดผลลัพธ์ที่เป็นไปได้ของชุดข้อมูลเฉพาะ แมชชีนเลิร์นนิงกำหนดซอฟต์แวร์ที่สามารถระบุผลลัพธ์ที่เป็นไปได้ของชุดเหตุการณ์หนึ่งๆ ดังนั้นจึงถูกนำมาใช้ในการวิเคราะห์เชิงคาดการณ์ ตัวอย่างของการวิเคราะห์เชิงคาดการณ์คือความน่าจะเป็นที่จะชนะคดีความหรือความสำเร็จของการผลิตบางอย่าง
-
การประมวลผลภาษาธรรมชาติ
ชุดของเทคนิคจากสาขาย่อยของวิทยาการคอมพิวเตอร์ (ภายในสาขาที่ในอดีตเรียกว่า "ปัญญาประดิษฐ์") และภาษาศาสตร์ที่ใช้อัลกอริทึมคอมพิวเตอร์เพื่อวิเคราะห์ภาษาของมนุษย์ (ธรรมชาติ) เทคนิค NLP จำนวนมากเป็นประเภทของการเรียนรู้ของเครื่อง แอปพลิเคชั่นหนึ่งของ NLP คือการใช้การวิเคราะห์ความรู้สึกบนโซเชียลมีเดียเพื่อพิจารณาว่าลูกค้าที่คาดหวังมีปฏิกิริยาอย่างไรต่อแคมเปญการสร้างแบรนด์
-
โครงข่ายประสาทเทียม
แบบจำลองการทำนายแบบไม่เชิงเส้นที่เรียนรู้ผ่านการฝึกอบรมและมีลักษณะคล้ายเครือข่ายประสาททางชีวภาพในโครงสร้าง สามารถใช้สำหรับการจดจำรูปแบบและการปรับให้เหมาะสม แอปพลิเคชันเครือข่ายประสาทบางตัวเกี่ยวข้องกับการเรียนรู้แบบมีผู้สอน และแอปพลิเคชันอื่นๆ เกี่ยวข้องกับการเรียนรู้แบบไม่มีผู้ดูแล ตัวอย่างของแอปพลิเคชัน ได้แก่ การระบุลูกค้าที่มีมูลค่าสูงซึ่งมีความเสี่ยงที่จะออกจากบริษัทใดบริษัทหนึ่ง และการระบุการเรียกร้องค่าสินไหมทดแทนที่ฉ้อฉล
-
การเพิ่มประสิทธิภาพ
กลุ่มเทคนิคเชิงตัวเลขที่ใช้ในการออกแบบระบบและกระบวนการที่ซับซ้อนใหม่ เพื่อปรับปรุงประสิทธิภาพตามมาตรการเชิงวัตถุประสงค์อย่างน้อยหนึ่งข้อ (เช่น ต้นทุน ความเร็ว หรือความน่าเชื่อถือ) ตัวอย่างการใช้งาน ได้แก่ การปรับปรุงกระบวนการปฏิบัติงาน เช่น การจัดตารางเวลา การกำหนดเส้นทาง และการวางผังพื้น และการตัดสินใจเชิงกลยุทธ์ เช่น กลยุทธ์กลุ่มผลิตภัณฑ์ การวิเคราะห์การลงทุนที่เชื่อมโยง และกลยุทธ์พอร์ตโฟลิโอ R&D อัลกอริทึมทางพันธุกรรมเป็นตัวอย่างของเทคนิคการเพิ่มประสิทธิภาพ
ในบล็อกถัดไป ฉันจะอธิบายเทคนิคการวิเคราะห์ข้อมูลขนาดใหญ่อีก 13 เทคนิคที่เหลือ