Computer >> คอมพิวเตอร์ >  >> ระบบ >> Windows

ข้อมูลขนาดใหญ่อาจผิดพลาดได้อย่างไร

ข้อมูลขนาดใหญ่ที่มีแมชชีนเลิร์นนิงและอัลกอริทึมเป็นแกนหลักนั้น ขณะนี้อยู่ในจุดสูงสุดเนื่องจากมีความต้องการสูงและคุณสมบัติที่ยอดเยี่ยม เพื่อให้ได้โซลูชันการวิเคราะห์ข้อมูลขนาดใหญ่ บริษัทหลายแห่งต้องการความเชี่ยวชาญในด้านนี้ วัฒนธรรมของ Big Data กำลังมีอิทธิพลเหนือโลกในปัจจุบันและได้จัดการเพื่อกำหนดมาตรฐานในขณะที่บริษัทต่าง ๆ พยายามที่จะบรรลุระบบธุรกิจอัจฉริยะโดยใช้โมเดลการคาดการณ์และการวิเคราะห์ทางสถิติ

เนื่องจากข้อมูลกำลังสร้างในอัตราเลขชี้กำลัง ความต้องการเทคโนโลยีล้ำสมัย เช่น Big Data, IoT และ Cloud Computing จึงเพิ่มสูงขึ้น ผู้เชี่ยวชาญกล่าวว่าเทคโนโลยีเหล่านี้จะกลายเป็นส่วนหนึ่งของทุกธุรกิจอย่างหลีกเลี่ยงไม่ได้ในอนาคตอันใกล้นี้ โดยเฉพาะอย่างยิ่งเมื่อพิจารณาจาก Big Data ก็เป็นที่ต้องการอย่างมาก พวกเขาใช้ชุดข้อมูลจำนวนมหาศาลเพื่อเรียกใช้อัลกอริธึมที่ซับซ้อน และในที่สุดก็ออกมาพร้อมกับคำตัดสินที่เสนอผลที่ตามมามากมาย แต่คำถามที่แท้จริงคือเราสามารถพึ่งพาเครื่องจักรเพียงอย่างเดียวในการทำนายและกำหนดผลกำไรและขาดทุนในอนาคตของเราได้หรือไม่

ในภาวะเศรษฐกิจที่คาดเดาไม่ได้ บริษัทต่าง ๆ กำลังต่อสู้กับตลาดที่มีอคติและสถิติที่ไม่น่าเชื่อถือ ในสถานการณ์ดังกล่าว Big Data ช่วยให้พวกเขาสามารถสรุปผลและใช้สถิติที่กำหนดเพื่อตัดสินใจทางธุรกิจที่ชาญฉลาด ถ้าเช่นนั้น Big Data อาจผิดพลาดได้ที่ไหน

เมื่อถึงจุดที่ข้อมูลเริ่มควบคุมเจ้าของธุรกิจและความคิดสร้างสรรค์ก็จะถูกจำกัด เมื่อถึงจุดหนึ่ง เมื่อธุรกิจเริ่มเชื่อถือผลลัพธ์เชิงเครื่องจักรแทนผลลัพธ์ที่อิงตามการโต้ตอบตามเวลาจริง และเมื่อถึงจุดหนึ่ง เมื่อธุรกิจถูกควบคุมโดยเครื่องจักรมากกว่าคน พลังของบิ๊กดาต้าก็เป็นที่ยอมรับ เนื่องจากข้อมูลที่ออกมาจากเครื่อง ผู้คนคิดว่าข้อมูลนั้นควรจะถูกต้อง แต่โชคไม่ดีที่ไม่ถูกต้อง

มีข้อผิดพลาดในตัวและการคำนวณผิดพลาดในตัวแบบการวิเคราะห์ส่วนใหญ่ ซึ่งในที่สุดการคาดการณ์จะพังทลายในทุกระบบที่เป็นทางการ และด้วย Big Data ความเป็นไปได้ของหายนะจึงค่อนข้างสูง มาทำความเข้าใจว่าปัญหาที่พบบ่อยที่สุดสามประการของ Big Data คืออะไร

ข้อมูลผี

ข้อมูลที่เราพบโดยทั่วไปเพื่อกำหนดการตัดสินใจในแต่ละวันมาจากฐานข้อมูลขนาดใหญ่ที่ได้รับการวิเคราะห์ผ่านกระบวนการวิเคราะห์ที่ซับซ้อน คุณไม่สามารถตัดสินตัวเลขเหล่านั้นว่าถูกต้องหรือไม่

ข้อมูลขนาดใหญ่อาจผิดพลาดได้อย่างไร

มาดูภาพรวมคร่าวๆ เกี่ยวกับกระบวนการผลิตข้อมูลกัน ในกรณีส่วนใหญ่ พนักงานแนวหน้าจะใส่ข้อมูลลงในเครื่องที่อาจมีข้อผิดพลาดของมนุษย์ อีกครั้ง พนักงานเก็บเงินมีหน้าที่ป้อนบาร์โค้ดให้ถูกต้อง ในขณะที่พนักงานสต็อกสินค้าต้องนับและวางสต็อกให้ถูกต้อง ความรับผิดชอบในการทำงานเหล่านี้ยังไม่ได้รวมอยู่ในเครื่องจักรและปัจจุบันได้รับมอบหมายให้มนุษย์

ผลที่ตามมาคือข้อผิดพลาดเป็นสิ่งที่หลีกเลี่ยงไม่ได้ซึ่งก่อให้เกิดความไม่สอดคล้องกันของตัวเลข และส่งผลต่อการตัดสินใจซื้อและการตลาดของผู้บริโภครวมถึงซัพพลายเออร์ด้วย การเข้าใจบทบาทของข้อมูลเป็นสิ่งสำคัญ ดังนั้นจึงจำเป็นต้องควบคุมตัวเลขที่เข้าสู่ระบบ

การเชื่อถือข้อมูลอย่างสุ่มสี่สุ่มห้า

จากการประเมินการปฏิบัติงานไปจนถึงการพึ่งพากระบวนทัศน์ที่ตายตัวเพื่อประเมินคุณภาพของนักเรียน ปัจจุบันข้อมูลกลายเป็นส่วนหนึ่งของชีวิตของเรา ทุกวันนี้ เราพึ่งพาข้อมูลมากเกินไปในบางสถานการณ์ จนบางฟังก์ชันไม่สามารถทำได้หากไม่มีข้อมูลเหล่านั้น ข้อมูลสามารถถูกจัดการได้ง่ายก่อนที่จะเจาะเข้าไปในเครื่อง และนั่นคือข้อเสียเปรียบของการไว้ใจข้อมูลโดยสุ่มสี่สุ่มห้า นอกจากนี้ ใครๆ ก็ชอบที่จะตั้งคำถามถึงการตัดสินของมนุษย์ แต่ในกรณีของเครื่องจักร ผลลัพธ์ของการวิเคราะห์ข้อมูลมักจะไม่เป็นที่ต้องการ สิ่งสำคัญคือต้องพิจารณาว่าชุดข้อมูลมีการเปลี่ยนแปลงด้วยวิธีใดก่อนที่จะทำการเปรียบเทียบโดยตรงหรือไม่

เกินพอดีทางสถิติ

เพื่อความเข้าใจของคุณ การตัดสินใจทางธุรกิจใดๆ จะขึ้นอยู่กับการอนุมานทางสถิติที่ได้มาจากพฤติกรรมในอดีต อย่างไรก็ตาม กระบวนการนี้มีข้อบกพร่องโดยสมบูรณ์ โดยเฉพาะอย่างยิ่งเมื่อชุดข้อมูลมีขนาดเล็กและเหมาะสมสำหรับค่าผิดปกติเพียงเล็กน้อยที่จะบิดเบือนผลลัพธ์อย่างมีนัยสำคัญ

มีองค์ประกอบหนึ่งของการสุ่มในทุกชุดข้อมูล ซึ่งเชื่อว่ายิ่งมีการปรับแต่งแบบจำลองการคาดการณ์ให้ตรงกับเหตุการณ์ในอดีตได้แม่นยำมากเท่าใด ความแม่นยำในอนาคตก็จะยิ่งน้อยลงเท่านั้น

ข้อมูลขนาดใหญ่อาจผิดพลาดได้อย่างไร

มีการอนุมานเมื่อแบบจำลองที่มีความซับซ้อนสูงสุดล้มเหลวและให้ผลลัพธ์ที่เลวร้าย ตัวอย่างเช่น แบบจำลองสำหรับการทำนายตลาดหุ้นที่ผู้คนเสี่ยงพันล้านทุกวัน มีแอปพลิเคชันที่มีอยู่ในตลาดซึ่งอ้างว่าให้การคาดการณ์ที่แม่นยำแต่บางครั้งก็ล้มเหลว

ไม่ได้หมายความว่าเราต้องหยุดใช้เครื่องจักรในการตัดสินใจและทำนายอนาคต สิ่งที่เราต้องทำคือเปิดแหล่งข้อมูลอื่นไว้ในขณะที่ใช้เครื่องเพื่อรวบรวมข้อมูล การยอมรับตัวเลขสุ่มสี่สุ่มห้านั้นมีความเสี่ยงและเสี่ยงโชค ดังนั้นจึงจำเป็นต้องพิจารณาขั้นตอนการรวบรวมข้อมูลและวิธีการสรุปผล สิ่งนี้จะช่วยให้คุณสามารถตัดสินใจได้อย่างรอบรู้และหลีกหนีการสูญเสีย