Computer >> คอมพิวเตอร์ >  >> การเขียนโปรแกรม >> การเขียนโปรแกรม

การทำเหมืองข้อมูลทางสถิติมีวิธีการอย่างไร?


ในเทคนิคการทำเหมืองข้อมูลทางสถิติ มันถูกสร้างขึ้นสำหรับการจัดการข้อมูลจำนวนมากอย่างมีประสิทธิภาพซึ่งโดยทั่วไปแล้วมีหลายมิติและอาจเป็นประเภทที่ซับซ้อนหลายประเภท

มีวิธีการทางสถิติที่มั่นคงหลายวิธีสำหรับการวิเคราะห์ข้อมูล โดยเฉพาะอย่างยิ่งสำหรับข้อมูลตัวเลข วิธีการเหล่านี้ถูกใช้อย่างกว้างขวางในบันทึกทางวิทยาศาสตร์ (เช่น บันทึกจากการทดลองทางฟิสิกส์ วิศวกรรม การผลิต จิตวิทยา และการแพทย์) และไปจนถึงข้อมูลจากเศรษฐศาสตร์และสังคมศาสตร์

การทำเหมืองข้อมูลทางสถิติมีวิธีการต่างๆ ดังนี้ -

การถดถอย − โดยทั่วไป เทคนิคเหล่านี้ใช้เพื่อคาดการณ์ค่าของตัวแปรตอบสนอง (ตาม) จากตัวแปรทำนาย (อิสระ) ใหม่ โดยที่ตัวแปรเป็นตัวเลข การถดถอยมีหลายรูปแบบ รวมถึงแบบเชิงเส้น แบบพหุคูณ แบบถ่วงน้ำหนัก พหุนาม ไม่อิงพารามิเตอร์ และแบบทนทาน (วิธีการที่เข้มงวดจะเป็นประโยชน์เมื่อข้อผิดพลาดลดลงเพื่อให้เป็นไปตามสภาวะปกติหรือเมื่อข้อมูลรวมค่าผิดปกติที่มีนัยสำคัญ)

ตัวแบบเชิงเส้นทั่วไป − โมเดลเหล่านี้และการวางนัยทั่วไปของพวกมัน (โมเดลการเติมทั่วไป) ทำให้ตัวแปรตอบสนองตามหมวดหมู่ (ระบุ) (การแปลงหลายรูปแบบของมัน) สามารถเชื่อมโยงกับชุดของตัวแปรทำนายในลักษณะเดียวกันกับการสร้างแบบจำลองของตัวแปรการตอบสนองทางคณิตศาสตร์โดยใช้การถดถอยเชิงเส้น . ตัวแบบเชิงเส้นทั่วไปเกี่ยวข้องกับการถดถอยโลจิสติกและการถดถอยปัวซอง

การวิเคราะห์ความแปรปรวน − วิธีการเหล่านี้วิเคราะห์ข้อมูลการทดลองสำหรับประชากรตั้งแต่สองคนขึ้นไปที่กำหนดโดยตัวแปรการตอบสนองที่เป็นตัวเลขและตัวแปรตามหมวดหมู่ใหม่ (ปัจจัย) โดยทั่วไป ปัญหา ANOVA (การวิเคราะห์ปัจจัยเดียวของความแปรปรวน) ประกอบด้วยการเปรียบเทียบของประชากร k หรือการบำบัดที่กำหนดเพื่อตัดสินใจว่าวิธีการอย่างน้อยสองวิธีแตกต่างกัน

โมเดลลูกผสม − โมเดลเหล่านี้มีไว้สำหรับการสำรวจข้อมูลที่จัดกลุ่ม—ข้อมูลที่สามารถจัดประเภทตามตัวแปรการจัดกลุ่มหนึ่งตัวหรือมากกว่า โดยทั่วไปจะกำหนดความสัมพันธ์ระหว่างตัวแปรตอบสนองและตัวแปรร่วมหลายตัวในข้อมูลที่รวมกันตามปัจจัยหนึ่งหรือหลายปัจจัย การใช้งานมีหลายส่วน เช่น ข้อมูลหลายระดับ ข้อมูลการวัดซ้ำ การออกแบบบล็อก และข้อมูลตามยาว

การวิเคราะห์ปัจจัย − วิธีนี้สามารถกำหนดได้ว่าตัวแปรใดรวมกันเพื่อสร้างปัจจัยที่กำหนด ตัวอย่างเช่น สำหรับข้อมูลทางจิตเวชหลายๆ ข้อมูล ไม่สามารถคำนวณปัจจัยเฉพาะที่น่าสนใจได้โดยตรง (เช่น สติปัญญา) อย่างไรก็ตาม สามารถวัดปริมาณอื่นๆ ที่สะท้อนถึงองค์ประกอบที่น่าสนใจได้ ดังนั้นจึงไม่มีตัวแปรใดที่เหมาะสมกับการพึ่งพาอาศัยกัน

การวิเคราะห์การเลือกปฏิบัติ − เทคนิคนี้สามารถทำนายตัวแปรการตอบสนองตามหมวดหมู่ได้ ไม่เหมือนกับตัวแบบเชิงเส้นทั่วไป โดยพิจารณาว่าตัวแปรอิสระตามการแจกแจงปกติแบบหลายตัวแปร กระบวนการพยายามที่จะตัดสินใจเลือกฟังก์ชันต่างๆ (ชุดเชิงเส้นของตัวแปรอิสระ) ที่เลือกปฏิบัติระหว่างกลุ่มที่แสดงโดยตัวแปรตอบสนอง โดยทั่วไปแล้วการวิเคราะห์การเลือกปฏิบัติมักใช้ในสังคมศาสตร์

การวิเคราะห์การเอาตัวรอด − มีวิธีการทางสถิติที่มั่นคงหลายวิธีสำหรับการวิเคราะห์การอยู่รอด เทคนิคเหล่านี้ในขั้นต้นได้รับการออกแบบมาเพื่อคาดการณ์ความน่าจะเป็นที่ผู้ป่วยที่ได้รับการวิเคราะห์ทางการแพทย์สามารถอยู่รอดได้อย่างน้อยก็ถึงเวลา t

การควบคุมคุณภาพ − มีสถิติหลายอย่างที่ใช้ในการเตรียมแผนภูมิสำหรับการควบคุมคุณภาพ รวมถึงแผนภูมิ Shewhart และแผนภูมิ CUSUM สถิติเหล่านี้เกี่ยวข้องกับค่าเฉลี่ย ส่วนเบี่ยงเบนมาตรฐาน ช่วง การนับ ค่าเฉลี่ยเคลื่อนที่ ส่วนเบี่ยงเบนมาตรฐานเคลื่อนที่ และช่วงเคลื่อนที่