Computer >> คอมพิวเตอร์ >  >> การเขียนโปรแกรม >> การเขียนโปรแกรม

เหตุใดจึงต้องใช้สถิติในการทำเหมืองข้อมูล


สถิติเป็นศาสตร์แห่งการเรียนรู้จากข้อมูล มันมีทุกอย่างตั้งแต่การวางแผนสำหรับชุดของเรคคอร์ดและการจัดการข้อมูลที่ตามมา ไปจนถึงกิจกรรมท้ายบรรทัด รวมถึงการอนุมานจากข้อเท็จจริงเชิงตัวเลขที่เรียกว่าข้อมูลและการนำเสนอผลลัพธ์ สถิติเกี่ยวข้องกับสิ่งสำคัญที่สุดของบุคคลที่ต้องการ:ความจำเป็นในการค้นหาข้อมูลเพิ่มเติมเกี่ยวกับโลกและวิธีการทำงานเมื่อเผชิญกับนวัตกรรมและความไม่แน่นอน

ข้อมูลคือการสื่อสารความรู้ ข้อมูลเรียกว่าข้อมูลคร่าวๆ ไม่ใช่ความรู้เอง ลำดับจากข้อมูลสู่ความรู้มีดังนี้ จากข้อมูลสู่ข้อมูล (ข้อมูลพัฒนาเป็นข้อมูลเมื่อพัฒนาไปสู่ปัญหาการตัดสินใจ) จากข้อมูลสู่ข้อเท็จจริง (ข้อมูลจะกลายเป็นข้อเท็จจริงเมื่อข้อมูลรองรับได้) และสุดท้ายจากข้อเท็จจริงสู่ความรู้ (ข้อเท็จจริงจะกลายเป็นความรู้เมื่อใช้ในการแข่งขันที่ประสบความสำเร็จในกระบวนการตัดสินใจ)

สถิติเกิดขึ้นจากความจำเป็นในการวางความรู้บนฐานหลักฐานอย่างเป็นระบบ สิ่งนี้จำเป็นต้องมีการศึกษากฎความน่าจะเป็น การพัฒนาการคำนวณคุณสมบัติข้อมูลและความสัมพันธ์ ฯลฯ

สถิติกำหนดการวิเคราะห์และการนำเสนอบันทึกตัวเลข ซึ่งเป็นองค์ประกอบสำคัญของอัลกอริธึมการทำเหมืองข้อมูลทั้งหมด รองรับเครื่องมือและวิธีการวิเคราะห์เพื่อจัดการกับข้อมูลจำนวนมาก สถิติประกอบด้วยการวางแผน การออกแบบ การรวบรวมข้อมูล การวิเคราะห์ และการรายงานผลการวิจัย เนื่องจากสถิติเหล่านี้ไม่ได้กำหนดไว้เฉพาะสำหรับคณิตศาสตร์เท่านั้น แต่นักวิเคราะห์ธุรกิจยังใช้สถิติเพื่อแก้ปัญหาทางธุรกิจอีกด้วย

สถิติอนุมานใช้สำหรับกลุ่มตัวอย่างในการประมาณค่าพารามิเตอร์ของประชากร สามารถทำการทดสอบสมมติฐานเพื่อดูว่าชุดข้อมูลสองชุดมีความคล้ายคลึงหรือแตกต่างกันหรือไม่ ใช้เพื่อทำการวิเคราะห์เชิงเส้นหรือการถดถอยพหุคูณเพื่ออธิบายสาเหตุ

การทดสอบสมมติฐานสามารถเปรียบเทียบชุดข้อมูลสองชุดเป็นตัวเลขได้ ตัวอย่างเช่น สามารถรู้สึก (สมมุติฐาน) ว่าปริมาณการขายนี้ใกล้เคียงหรือดีกว่าคู่แข่งหลัก สามารถใช้การทดสอบสมมติฐานเพื่อยืนยันหรือปฏิเสธสมมติฐานทางคณิตศาสตร์ได้

การวิเคราะห์สหสัมพันธ์เป็นเครื่องมือง่ายๆ ในการแยกตัวแปรที่น่าสนใจออกจากตัวแปรสุ่มหลายๆ ตัว ซึ่งมักพบในชุดข้อมูลขนาดใหญ่ เพื่อดูว่าตัวแปรทางธุรกิจใดส่งผลกระทบอย่างมีนัยสำคัญต่อผลลัพธ์ทางธุรกิจที่ต้องการ

สามารถใช้สถิติหลายอย่างเพื่อเตรียมแผนภูมิสำหรับการควบคุมคุณภาพ รวมถึงแผนภูมิ Shewhart และแผนภูมิ cusum (ซึ่งทั้งสองแสดงสถิติสรุปกลุ่ม) สถิติเหล่านี้ประกอบด้วยค่าเฉลี่ย ส่วนเบี่ยงเบนมาตรฐาน ช่วง การนับ ค่าเฉลี่ยเคลื่อนที่ ส่วนเบี่ยงเบนมาตรฐานเคลื่อนที่ และช่วงเคลื่อนที่