Computer >> คอมพิวเตอร์ >  >> ระบบ >> Windows

เจาะลึก 26 เทคนิคการวิเคราะห์ข้อมูลขนาดใหญ่:ตอนที่ 1

'บิ๊กดาต้า' คือการประยุกต์ใช้เทคนิคและเทคโนโลยีพิเศษเพื่อประมวลผลชุดข้อมูลขนาดใหญ่มาก ชุดข้อมูลเหล่านี้มักมีขนาดใหญ่และซับซ้อนจนยากต่อการประมวลผลโดยใช้เครื่องมือจัดการฐานข้อมูลคงเหลือ

การเติบโตอย่างก้าวกระโดดของเทคโนโลยีสารสนเทศได้นำไปสู่เงื่อนไขต่างๆ มากมายในอุตสาหกรรมนี้ หนึ่งในผลลัพธ์ที่คงอยู่และคงอยู่ในปัจจุบันมากที่สุด คือการมีอยู่ของข้อมูลขนาดใหญ่ คำว่า Big Data เป็นวลีติดปากที่บัญญัติขึ้นเพื่ออธิบายการมีอยู่ของข้อมูลจำนวนมหาศาล ผลลัพธ์ของการมีข้อมูลจำนวนมากเช่นนี้คือการวิเคราะห์ข้อมูล

การวิเคราะห์ข้อมูลคือกระบวนการจัดโครงสร้างข้อมูลขนาดใหญ่ ภายใน Big Data มีรูปแบบและความสัมพันธ์ที่แตกต่างกันซึ่งทำให้การวิเคราะห์ข้อมูลสามารถกำหนดลักษณะของข้อมูลที่คำนวณได้ดีขึ้น ทำให้การวิเคราะห์ข้อมูลเป็นส่วนสำคัญที่สุดของเทคโนโลยีสารสนเทศ

ดังนั้น ที่นี่ฉันแสดงรายการเทคนิคการวิเคราะห์ข้อมูลขนาดใหญ่ 26 รายการ รายการนี้ไม่ได้ครอบคลุมทั้งหมด

  1. การทดสอบ A/B

การทดสอบ A/B เป็นเครื่องมือประเมินสำหรับการระบุว่าหน้าเว็บหรือแอปเวอร์ชันใดช่วยให้องค์กรหรือบุคคลบรรลุเป้าหมายทางธุรกิจได้อย่างมีประสิทธิภาพมากขึ้น การตัดสินใจนี้ดำเนินการโดยการเปรียบเทียบว่ารุ่นใดทำงานได้ดีกว่ากัน การทดสอบ A/B มักใช้ในการพัฒนาเว็บเพื่อให้แน่ใจว่าการเปลี่ยนแปลงหน้าเว็บหรือส่วนประกอบของหน้าเว็บนั้นขับเคลื่อนด้วยข้อมูล ไม่ใช่ความคิดเห็นส่วนตัว

เรียกอีกอย่างว่าการทดสอบที่หกหรือการทดสอบถัง

เจาะลึก 26 เทคนิคการวิเคราะห์ข้อมูลขนาดใหญ่:ตอนที่ 1

  1. การเรียนรู้กฎการเชื่อมโยง

ชุดเทคนิคสำหรับการค้นหาความสัมพันธ์ที่น่าสนใจ เช่น "กฎการเชื่อมโยง" ระหว่างตัวแปรในฐานข้อมูลขนาดใหญ่ เทคนิคเหล่านี้ประกอบด้วยอัลกอริทึมที่หลากหลายเพื่อสร้างและทดสอบกฎที่เป็นไปได้

แอปพลิเคชันหนึ่งคือการวิเคราะห์ตะกร้าตลาด ซึ่งผู้ค้าปลีกสามารถระบุได้ว่าผลิตภัณฑ์ใดที่มีการซื้อร่วมกันบ่อยๆ และใช้ข้อมูลนี้เพื่อการตลาด (ตัวอย่างที่อ้างถึงโดยทั่วไปคือการค้นพบว่าผู้ซื้อในซูเปอร์มาร์เก็ตจำนวนมากที่ซื้อนาโชส์ก็ซื้อเบียร์ด้วย)

เจาะลึก 26 เทคนิคการวิเคราะห์ข้อมูลขนาดใหญ่:ตอนที่ 1

  1. การวิเคราะห์แผนผังการจำแนกประเภท

การจำแนกประเภททางสถิติเป็นวิธีการระบุหมวดหมู่ที่เป็นของข้อสังเกตใหม่ จำเป็นต้องมีชุดการฝึกสำหรับการสังเกตที่ระบุอย่างถูกต้อง – หรืออีกนัยหนึ่งคือข้อมูลในอดีต

มีการใช้การจัดประเภททางสถิติเพื่อ:

  • กำหนดเอกสารให้เป็นหมวดหมู่โดยอัตโนมัติ
  • จัดหมวดหมู่สิ่งมีชีวิตออกเป็นกลุ่มๆ
  • พัฒนาโปรไฟล์ของนักเรียนที่เรียนหลักสูตรออนไลน์

เจาะลึก 26 เทคนิคการวิเคราะห์ข้อมูลขนาดใหญ่:ตอนที่ 1

  1. การวิเคราะห์คลัสเตอร์

วิธีการทางสถิติสำหรับการจำแนกวัตถุที่แยกกลุ่มที่หลากหลายออกเป็นกลุ่มย่อยๆ ของวัตถุที่คล้ายกัน ซึ่งไม่ทราบลักษณะของความคล้ายคลึงกันล่วงหน้า ตัวอย่างของการวิเคราะห์คลัสเตอร์คือการแบ่งกลุ่มผู้บริโภคออกเป็นกลุ่มที่มีลักษณะคล้ายคลึงกันสำหรับการตลาดแบบกำหนดเป้าหมาย ใช้สำหรับการขุดข้อมูล

  1. การจัดหาฝูงชน

ในการระดมทุนแบบคราวด์ซอร์ส ความแตกต่างคือ งานหรืองานหนึ่งๆ ได้รับการว่าจ้างจากภายนอก แต่ไม่ใช่สำหรับมืออาชีพหรือองค์กรที่กำหนด แต่เป็นการจ้างบุคคลทั่วไปในรูปแบบของการโทรแบบเปิด Crowdsourcing เป็นเทคนิคที่สามารถนำไปใช้เพื่อรวบรวมข้อมูลจากแหล่งต่างๆ เช่น ข้อความ การอัปเดตโซเชียลมีเดีย บล็อก ฯลฯ นี่คือประเภทของการทำงานร่วมกันจำนวนมากและตัวอย่างของการใช้เว็บ

  1. การรวมข้อมูลและการรวมข้อมูล

กระบวนการหลายระดับที่เกี่ยวข้องกับการเชื่อมโยง ความสัมพันธ์ การรวมข้อมูลและข้อมูลจากแหล่งเดียวและหลายแหล่งเพื่อให้ได้ตำแหน่งที่ละเอียด ระบุการประมาณการและการประเมินสถานการณ์ที่สมบูรณ์และทันท่วงที ภัยคุกคามและความสำคัญ

เทคนิคการหลอมรวมข้อมูลจะรวมข้อมูลจากเซ็นเซอร์หลายตัวและข้อมูลที่เกี่ยวข้องจากฐานข้อมูลที่เกี่ยวข้องเพื่อให้ได้รับการปรับปรุงความแม่นยำและการอนุมานที่เฉพาะเจาะจงมากกว่าที่ทำได้โดยใช้เซ็นเซอร์ตัวเดียวเพียงอย่างเดียว

  1. ขุดข้อมูล

เหมืองข้อมูลคือการจัดเรียงข้อมูลเพื่อระบุรูปแบบและสร้างความสัมพันธ์ การทำเหมืองข้อมูลหมายถึงเทคนิคการดึงข้อมูลแบบรวมที่ทำกับข้อมูลปริมาณมาก พารามิเตอร์การทำเหมืองข้อมูล ได้แก่ การเชื่อมโยง การวิเคราะห์ลำดับ การจัดประเภท การจัดกลุ่ม และการพยากรณ์

แอปพลิเคชันรวมถึงการขุดข้อมูลลูกค้าเพื่อกำหนดกลุ่มที่มีแนวโน้มมากที่สุดที่จะตอบสนองต่อข้อเสนอ การขุดข้อมูลทรัพยากรบุคคลเพื่อระบุลักษณะของพนักงานที่ประสบความสำเร็จมากที่สุด หรือการวิเคราะห์ตะกร้าตลาดเพื่อสร้างแบบจำลองพฤติกรรมการซื้อ ของลูกค้า

เจาะลึก 26 เทคนิคการวิเคราะห์ข้อมูลขนาดใหญ่:ตอนที่ 1

  1. รวมการเรียนรู้

เป็นศิลปะของการรวมชุดของอัลกอริทึมการเรียนรู้ที่หลากหลายเข้าด้วยกันเพื่อด้นสดบนความเสถียรและพลังการทำนายของโมเดล นี่คือประเภทของการเรียนรู้แบบมีผู้สอน

  1. ขั้นตอนวิธีการเชิงพันธุกรรม

เทคนิคการเพิ่มประสิทธิภาพที่ใช้กระบวนการต่างๆ เช่น การผสมทางพันธุกรรม การกลายพันธุ์ และการคัดเลือกโดยธรรมชาติในการออกแบบตามแนวคิดของวิวัฒนาการตามธรรมชาติ อัลกอริธึมเชิงพันธุกรรมเป็นเทคนิคที่ใช้ในการระบุวิดีโอ รายการทีวี และสื่อรูปแบบอื่นๆ ที่มีคนดูมากที่สุด มีรูปแบบวิวัฒนาการที่สามารถทำได้โดยใช้ขั้นตอนวิธีทางพันธุกรรม การวิเคราะห์วิดีโอและสื่อสามารถทำได้โดยใช้อัลกอริทึมทางพันธุกรรม

  1. แมชชีนเลิร์นนิง

แมชชีนเลิร์นนิงเป็นอีกเทคนิคหนึ่งที่สามารถใช้เพื่อจัดหมวดหมู่และกำหนดผลลัพธ์ที่เป็นไปได้ของชุดข้อมูลเฉพาะ แมชชีนเลิร์นนิงกำหนดซอฟต์แวร์ที่สามารถระบุผลลัพธ์ที่เป็นไปได้ของชุดเหตุการณ์หนึ่งๆ ดังนั้นจึงถูกนำมาใช้ในการวิเคราะห์เชิงคาดการณ์ ตัวอย่างของการวิเคราะห์เชิงคาดการณ์คือความน่าจะเป็นที่จะชนะคดีความหรือความสำเร็จของการผลิตบางอย่าง

  1. การประมวลผลภาษาธรรมชาติ

ชุดของเทคนิคจากสาขาย่อยของวิทยาการคอมพิวเตอร์ (ภายในสาขาที่ในอดีตเรียกว่า "ปัญญาประดิษฐ์") และภาษาศาสตร์ที่ใช้อัลกอริทึมคอมพิวเตอร์เพื่อวิเคราะห์ภาษาของมนุษย์ (ธรรมชาติ) เทคนิค NLP จำนวนมากเป็นประเภทของการเรียนรู้ของเครื่อง แอปพลิเคชั่นหนึ่งของ NLP คือการใช้การวิเคราะห์ความรู้สึกบนโซเชียลมีเดียเพื่อพิจารณาว่าลูกค้าที่คาดหวังมีปฏิกิริยาอย่างไรต่อแคมเปญการสร้างแบรนด์

  1. โครงข่ายประสาทเทียม

แบบจำลองการทำนายแบบไม่เชิงเส้นที่เรียนรู้ผ่านการฝึกอบรมและมีลักษณะคล้ายเครือข่ายประสาททางชีวภาพในโครงสร้าง สามารถใช้สำหรับการจดจำรูปแบบและการปรับให้เหมาะสม แอปพลิเคชันเครือข่ายประสาทบางตัวเกี่ยวข้องกับการเรียนรู้แบบมีผู้สอน และแอปพลิเคชันอื่นๆ เกี่ยวข้องกับการเรียนรู้แบบไม่มีผู้ดูแล ตัวอย่างของแอปพลิเคชัน ได้แก่ การระบุลูกค้าที่มีมูลค่าสูงซึ่งมีความเสี่ยงที่จะออกจากบริษัทใดบริษัทหนึ่ง และการระบุการเรียกร้องค่าสินไหมทดแทนที่ฉ้อฉล

  1. การเพิ่มประสิทธิภาพ

กลุ่มเทคนิคเชิงตัวเลขที่ใช้ในการออกแบบระบบและกระบวนการที่ซับซ้อนใหม่ เพื่อปรับปรุงประสิทธิภาพตามมาตรการเชิงวัตถุประสงค์อย่างน้อยหนึ่งข้อ (เช่น ต้นทุน ความเร็ว หรือความน่าเชื่อถือ) ตัวอย่างการใช้งาน ได้แก่ การปรับปรุงกระบวนการปฏิบัติงาน เช่น การจัดตารางเวลา การกำหนดเส้นทาง และการวางผังพื้น และการตัดสินใจเชิงกลยุทธ์ เช่น กลยุทธ์กลุ่มผลิตภัณฑ์ การวิเคราะห์การลงทุนที่เชื่อมโยง และกลยุทธ์พอร์ตโฟลิโอ R&D อัลกอริทึมทางพันธุกรรมเป็นตัวอย่างของเทคนิคการเพิ่มประสิทธิภาพ

ในบล็อกถัดไป ฉันจะอธิบายเทคนิคการวิเคราะห์ข้อมูลขนาดใหญ่อีก 13 เทคนิคที่เหลือ