Computer >> คอมพิวเตอร์ >  >> การเขียนโปรแกรม >> การเขียนโปรแกรม

เทคนิคการทำเหมืองข้อมูลทางสถิติคืออะไร?


การทำเหมืองข้อมูลทางสถิติมีเทคนิคต่างๆ ดังนี้ -

การถดถอย − วิธีการเหล่านี้ใช้เพื่อคาดการณ์ค่าของตัวแปรตอบสนอง (ตาม) จากตัวแปรทำนาย (อิสระ) หนึ่งตัวหรือมากกว่า โดยที่ตัวแปรเป็นตัวเลข การถดถอยมีหลายรูปแบบ รวมถึงแบบเชิงเส้น แบบพหุคูณ แบบถ่วงน้ำหนัก พหุนาม ไม่มีพารามิเตอร์ และแบบทนทาน (เทคนิคที่มีประสิทธิภาพจะเป็นประโยชน์เมื่อข้อผิดพลาดไม่เป็นไปตามสภาวะปกติหรือเมื่อข้อมูลมีค่าผิดปกติที่มีนัยสำคัญ)

ตัวแบบเชิงเส้นทั่วไป − โมเดลเหล่านี้และการวางนัยทั่วไปของโมเดลเหล่านี้ (โมเดลการบวกทั่วไป) ทำให้ตัวแปรตอบสนองตามหมวดหมู่ (หรือการแปลงบางส่วน) เชื่อมโยงกับชุดของตัวแปรทำนาย เช่น การสร้างแบบจำลองของตัวแปรการตอบสนองเชิงตัวเลขโดยใช้การถดถอยเชิงเส้น ตัวแบบเชิงเส้นทั่วไปประกอบด้วยการถดถอยโลจิสติกและการถดถอยปัวซอง

การวิเคราะห์ความแปรปรวน − วิธีการเหล่านี้วิเคราะห์ข้อมูลการทดลองสำหรับประชากรตั้งแต่สองคนขึ้นไปที่กำหนดโดยตัวแปรการตอบสนองที่เป็นตัวเลขและตัวแปรตามหมวดหมู่ (ปัจจัย) หนึ่งตัวหรือมากกว่า โดยทั่วไป ปัญหา ANOVA (การวิเคราะห์ปัจจัยเดียวของความแปรปรวน) ประกอบด้วยการเปรียบเทียบของประชากร k หรือการบำบัดที่กำหนดเพื่อตัดสินใจว่าวิธีการอย่างน้อยสองวิธีแตกต่างกัน

โมเดลลูกผสม − โมเดลเหล่านี้มีไว้สำหรับการวิเคราะห์ข้อมูลที่จัดกลุ่ม—ข้อมูลที่สามารถจัดหมวดหมู่ตามตัวแปรการจัดกลุ่มตั้งแต่หนึ่งตัวขึ้นไป โดยทั่วไปจะกำหนดความสัมพันธ์ระหว่างตัวแปรตอบสนองและตัวแปรร่วมบางส่วนในข้อมูลที่รวมกันตามปัจจัยหนึ่งหรือหลายปัจจัย พื้นที่ใช้งานทั่วไป เช่น ข้อมูลหลายระดับ ข้อมูลการวัดซ้ำ การออกแบบบล็อก และข้อมูลตามยาว

การวิเคราะห์ปัจจัย − วิธีนี้สามารถกำหนดได้ว่าตัวแปรใดถูกรวมเข้าด้วยกันเพื่อสร้างปัจจัยที่กำหนด ตัวอย่างเช่น สำหรับข้อมูลทางจิตเวชบางอย่าง เป็นไปไม่ได้ที่จะวัดปัจจัยที่น่าสนใจโดยเฉพาะ (รวมถึงความฉลาด) อย่างไรก็ตาม การวัดปริมาณอื่นๆ (รวมถึงคะแนนการทดสอบของนักเรียน) ที่สะท้อนถึงองค์ประกอบที่น่าสนใจนั้นสามารถนำไปใช้ได้ ในที่นี้ไม่มีตัวแปรใดถูกกำหนดให้ขึ้นอยู่กับ

การวิเคราะห์การเลือกปฏิบัติ − วิธีนี้สามารถทำนายตัวแปรการตอบสนองตามหมวดหมู่ได้ ต่างจากตัวแบบเชิงเส้นตรงทั่วไป มันบอกเป็นนัยว่าตัวแปรอิสระตามการแจกแจงปกติแบบหลายตัวแปร

กระบวนการพยายามกำหนดหน้าที่จำแนกบางอย่าง (ชุดเชิงเส้นของตัวแปรอิสระ) ที่เลือกปฏิบัติระหว่างกลุ่มที่แสดงโดยตัวแปรตอบสนอง โดยทั่วไปแล้วการวิเคราะห์การเลือกปฏิบัติมักใช้ในสังคมศาสตร์

การวิเคราะห์อนุกรมเวลา − มีเทคนิคทางสถิติบางประการสำหรับการวิเคราะห์ข้อมูลอนุกรมเวลา ซึ่งรวมถึงวิธีการถดถอยอัตโนมัติ การสร้างแบบจำลอง ARIMA ที่ไม่เปลี่ยนแปลง (autoregressive integrated moving average) และการสร้างแบบจำลองลำดับเวลาหน่วยความจำยาว

การวิเคราะห์การเอาตัวรอด − มีวิธีการทางสถิติที่มั่นคงหลายวิธีสำหรับการวิเคราะห์การรอดชีวิต วิธีการเหล่านี้ในขั้นต้นได้รับการออกแบบมาเพื่อคาดการณ์ความน่าจะเป็นที่ผู้ป่วยที่รับการรักษาพยาบาลสามารถอยู่รอดได้อย่างน้อยก็ถึงเวลา t

การควบคุมคุณภาพ − สามารถใช้สถิติหลายอย่างเพื่อเตรียมแผนภูมิสำหรับการควบคุมคุณภาพ รวมถึงแผนภูมิ Shewhart และแผนภูมิ CUSUM (ซึ่งทั้งสองแสดงสถิติสรุปกลุ่ม) สถิติเหล่านี้ประกอบด้วยค่าเฉลี่ย ส่วนเบี่ยงเบนมาตรฐาน ช่วง การนับ ค่าเฉลี่ยเคลื่อนที่ ส่วนเบี่ยงเบนมาตรฐานเคลื่อนที่ และช่วงเคลื่อนที่