Computer >> คอมพิวเตอร์ >  >> การเขียนโปรแกรม >> การเขียนโปรแกรม

วิธีการทางสถิติคืออะไร?


วิธีการทางสถิติคือแนวทางที่ใช้แบบจำลอง เช่น แบบจำลองถูกสร้างขึ้นสำหรับข้อมูล และวัตถุจะถูกคำนวณโดยพิจารณาว่าเหมาะสมกับแบบจำลองเพียงใด วิธีการทางสถิติส่วนใหญ่ในการตรวจหาค่าผิดปกตินั้นขึ้นอยู่กับการพัฒนาแบบจำลองการกระจายความน่าจะเป็นและการพิจารณาว่าวัตถุที่คล้ายคลึงกันนั้นอยู่ใต้แบบจำลองนั้นอย่างไร

ค่าผิดปกติคือออบเจ็กต์ที่มีความน่าจะเป็นต่ำเกี่ยวกับรูปแบบการกระจายความน่าจะเป็นของข้อมูล แบบจำลองการแจกแจงความน่าจะเป็นสร้างจากข้อมูลโดยการคำนวณพารามิเตอร์ของการแจกแจงที่ผู้ใช้กำหนด

หากข้อมูลถือว่ามีการแจกแจงแบบเกาส์เซียน ดังนั้นค่าเฉลี่ยและค่าเบี่ยงเบนมาตรฐานของการแจกแจงพื้นฐานสามารถวัดได้โดยการคำนวณค่าเฉลี่ยและค่าเบี่ยงเบนมาตรฐานของข้อมูล สามารถคำนวณความน่าจะเป็นของวัตถุทุกชิ้นที่อยู่ต่ำกว่าการแจกแจงได้

วิธีการทดสอบทางสถิติแบบกว้าง ๆ โดยอิงจากการคิดค้นเพื่อระบุค่าผิดปกติ หรือการสังเกตที่ไม่ลงรอยกัน ดังที่ทราบกันดีอยู่แล้วในเอกสารทางสถิติ การทดสอบความไม่ลงรอยกันเหล่านี้บางส่วนมีความเชี่ยวชาญอย่างมหาศาล และพิจารณาระดับความรู้ทางสถิติเพื่อเสริมความสามารถของข้อความนี้

การระบุการกระจายเฉพาะของชุดข้อมูล − ในขณะที่ข้อมูลหลายประเภทสามารถกำหนดได้ด้วยการแจกแจงทั่วไปจำนวนน้อย รวมทั้ง Gaussian, Poisson หรือทวินาม ชุดข้อมูลที่มีการแจกแจงแบบไม่เป็นมาตรฐานนั้นมักใช้ร่วมกัน แน่นอน หากเลือกโมเดลที่ไม่ถูกต้อง วัตถุอาจถูกจดจำว่าเป็นค่าผิดปกติได้

ตัวอย่างเช่น ข้อมูลสามารถสร้างแบบจำลองว่าปรากฏจากการแจกแจงแบบเกาส์เซียน แต่อาจมาจากการแจกแจงที่มีความเป็นไปได้มากกว่า (มากกว่าการแจกแจงแบบเกาส์เซียน) ในการรับค่าที่อยู่ไกลจากค่าเฉลี่ย การแจกแจงทางสถิติที่มีพฤติกรรมประเภทนี้เป็นเรื่องทั่วไปในทางปฏิบัติและเรียกว่าการแจกแจงแบบหนักหน่วง

จำนวนแอตทริบิวต์ที่ใช้ − เทคนิคการตรวจจับค่าผิดปกติทางสถิติบางอย่างใช้กับแอตทริบิวต์แต่ละรายการ แต่มีการแสดงเทคนิคบางอย่างสำหรับข้อมูลหลายตัวแปร

ส่วนผสมของการแจกแจง − ข้อมูลสามารถสร้างแบบจำลองเป็นการรวมกันของการแจกแจง และสามารถสร้างแผนการตรวจจับค่าผิดปกติตามแบบจำลองดังกล่าวได้ แม้ว่าจะมีไดนามิกมากกว่า แต่โมเดลดังกล่าวก็ซับซ้อน ทั้งต้องเรียนรู้และใช้งาน ตัวอย่างเช่น การแจกแจงที่จำเป็นในการระบุออบเจ็กต์ก่อนหน้านั้นสามารถกำหนดเป็นค่าผิดปกติได้

วิธีการทางสถิติในการตรวจหาค่าผิดปกติมีรากฐานที่มั่นคงและสร้างขึ้นโดยใช้เทคนิคทางสถิติมาตรฐาน รวมถึงการคำนวณพารามิเตอร์ของการแจกแจง เมื่อมีความรู้เพียงพอเกี่ยวกับข้อมูลและประเภทของการทดสอบที่ต้องใช้การทดสอบเหล่านี้ก็จะมีประสิทธิภาพ มีวิธีการทดสอบค่าผิดปกติทางสถิติสำหรับคุณลักษณะแต่ละรายการอย่างกว้างๆ มีตัวเลือกน้อยลงสำหรับข้อมูลหลายตัวแปร และการทดสอบเหล่านี้สามารถใช้งานได้ไม่ดีสำหรับระเบียนที่มีมิติข้อมูลสูง