Computer >> คอมพิวเตอร์ >  >> การเขียนโปรแกรม >> การเขียนโปรแกรม

ประสิทธิภาพของการวิเคราะห์การเลือกปฏิบัติเป็นอย่างไร?


วิธีการวิเคราะห์จำแนกตามสมมติฐานหลักสองข้อที่จะปรากฏที่คะแนนการจำแนกประเภท - อย่างแรก พิจารณาว่าการวัดตัวทำนายในบางคลาสปรากฏขึ้นจากการแจกแจงแบบปกติหลายตัวแปร เมื่อมีการรวบรวมสมมติฐานนี้อย่างสมเหตุสมผล การวิเคราะห์แบบแยกแยะเป็นเครื่องมือที่มีพลวัตมากกว่าวิธีการจำแนกประเภทอื่นๆ รวมถึงการถดถอยโลจิสติก

การวิเคราะห์แบบจำแนกประเภทมีประสิทธิภาพมากกว่าการถดถอยโลจิสติก 30% หากข้อมูลเป็นแบบพหุตัวแปรปกติ ต้องใช้เรกคอร์ดน้อยกว่า 30% เพื่อให้ได้ผลลัพธ์ที่เท่าเทียมกัน มีการแสดงให้เห็นว่าวิธีนี้ค่อนข้างแข็งแกร่งในการแยกตัวออกจากภาวะปกติในแง่ที่ว่าตัวทำนายอาจเป็นตัวแปรที่ไม่ปกติหรือแม้แต่ตัวแปรจำลองได้

นี่เป็นเรื่องจริงเมื่อพิจารณาว่าคลาสที่เล็กที่สุดมีขนาดใหญ่เพียงพอ (ประมาณมากกว่า 20 รายการ) วิธีการนี้ยังเรียกว่ามีความละเอียดอ่อนต่อค่าผิดปกติทั้งในพื้นที่ที่ไม่มีตัวแปรของตัวทำนายแต่ละตัวและในพื้นที่หลายตัวแปร ควรใช้การวิเคราะห์เชิงสำรวจเพื่อค้นหาวิธีการที่รุนแรงและตัดสินใจว่าจะนำออกได้หรือไม่

สมมติฐานที่สองหลังจากการวิเคราะห์จำแนกคือโครงสร้างความสัมพันธ์ระหว่างตัวทำนายหลายตัวในชั้นเรียนจะเหมือนกันในชั้นเรียน ซึ่งสามารถตรวจสอบได้โดยการคำนวณเมทริกซ์สหสัมพันธ์ระหว่างตัวทำนายแยกกันสำหรับทุกคลาสและเปรียบเทียบเมทริกซ์

หากความสัมพันธ์ขัดแย้งกันอย่างมากในชั้นเรียน ตัวแยกประเภทจะมีอิทธิพลต่อการกำหนดระเบียนในชั้นเรียนที่มีความแปรปรวนสูงสุด เมื่อโครงสร้างสหสัมพันธ์แตกต่างกันอย่างมากและชุดข้อมูลสูง อีกทางเลือกหนึ่งคือต้องมีการวิเคราะห์จำแนกแบบกำลังสอง

วิธีการระดับปานกลางคือการคิดวิเคราะห์เชิงสำรวจที่เกี่ยวข้องกับความปกติและความสัมพันธ์ ฝึกฝนและคำนวณแบบจำลอง จากนั้นอิงตามความถูกต้องของการจัดหมวดหมู่และสิ่งที่เรียนรู้จากการสำรวจดั้งเดิม วนกลับและสำรวจ นอกจากนี้ จะต้องตรวจสอบค่าผิดปกติหรือตัวเลือกตัวทำนาย ทบทวนตัวแปรแล้ว

อาร์กิวเมนต์เดียวกันสำหรับการใช้กลุ่มตรวจสอบสำหรับประสิทธิภาพการคำนวณยังคงมีอยู่ ตัวอย่างเช่น ในกลุ่มเครื่องตัดหญ้าแบบนั่งขับ 1, 13 และ 17 ได้รับการจำแนกประเภทผิด ซึ่งหมายความว่าโมเดลให้อัตราความผิดพลาด 12.5% ​​สำหรับเร็กคอร์ดเหล่านี้

อัตรานี้เป็นการวัดแบบเอนเอียง ซึ่งเป็นการมองในแง่ดีเพราะสามารถใช้ข้อมูลที่เท่ากันเพื่อปรับฟังก์ชันการจำแนกประเภทให้เหมาะสมและสำหรับการคำนวณข้อผิดพลาด ดังนั้น เช่นเดียวกับหลายรุ่น สามารถตรวจสอบประสิทธิภาพในชุดการตรวจสอบที่มีข้อมูลที่ไม่รวมอยู่ในการคำนวณฟังก์ชันการจำแนกประเภท

สามารถรับเมทริกซ์ความสับสนจากการวิเคราะห์จำแนก มันสามารถต้องการคะแนนการจัดหมวดหมู่อย่างแม่นยำ หรือแนวโน้ม (ความน่าจะเป็นของการลงทะเบียนเรียน) ที่คำนวณจากคะแนนการจัดหมวดหมู่ ในทั้งสองกรณี จะพิจารณาจากการมอบหมายชั้นเรียนของแต่ละระเบียนขึ้นอยู่กับคะแนนหรือความน่าจะเป็นมากที่สุด สามารถเปรียบเทียบการจัดประเภทเหล่านี้กับการเป็นสมาชิกคลาสจริงของข้อมูลเหล่านี้ ทำให้เกิดความสับสน