Computer >> คอมพิวเตอร์ >  >> การเขียนโปรแกรม >> การเขียนโปรแกรม

จะลดจำนวนผู้ทำนายได้อย่างไร?


ปัญหาที่พบบ่อยในการทำเหมืองข้อมูลคือการใช้สมการถดถอยเพื่อคาดการณ์ค่าของตัวแปรตามเมื่อสามารถเลือกตัวแปรหลายตัวเป็นตัวทำนายในแบบจำลองนี้

การพิจารณาอีกประการหนึ่งที่สนับสนุนการรวมตัวแปรจำนวนมากด้วยความหวังว่าความสัมพันธ์ที่ซ่อนเร้นก่อนหน้านี้จะปรากฏขึ้น ตัวอย่างเช่น บริษัทแห่งหนึ่งพบว่าลูกค้าที่ซื้อแผ่นกันรอยสำหรับเก้าอี้และขาโต๊ะมีความเสี่ยงด้านเครดิตที่ต่ำกว่า

มีเหตุผลหลายประการที่ควรใช้ความระมัดระวังก่อนที่จะโยนตัวแปรที่เป็นไปได้ทั้งหมดลงในแบบจำลอง

  • อาจมีราคาสูงหรือเป็นไปไม่ได้ในการตั้งค่าตัวทำนายที่สมบูรณ์สำหรับการคาดการณ์ที่คาดหวัง

  • สามารถคำนวณตัวทำนายน้อยลงได้ถูกต้องมากขึ้น (เช่น ในแบบสำรวจ)

  • ยิ่งมีตัวทำนายมาก โอกาสในการสูญเสียค่าในข้อมูลก็จะสูงขึ้น หากเราลบหรือใส่บันทึกที่มีค่าที่หายไป ตัวทำนายหลายตัวจะนำไปสู่อัตราการลบหรือใส่ข้อมูลที่สูงขึ้น

  • Parsimony เป็นคุณสมบัติที่สำคัญของนางแบบที่ดี เราได้รับข้อมูลเชิงลึกมากขึ้นเกี่ยวกับอิทธิพลของตัวทำนายในแบบจำลองที่มีพารามิเตอร์ไม่กี่ตัว

  • ค่าประมาณของสัมประสิทธิ์การถดถอยมีแนวโน้มที่จะคลุมเครือ เนื่องจากความหลายแกนในแบบจำลองที่มีตัวแปรหลายตัว (Multicollinearity คือการมีอยู่ของตัวทำนายสองตัวหรือมากกว่าที่มีความสัมพันธ์เชิงเส้นเดียวกันกับตัวแปรผลลัพธ์)

  • ค่าสัมประสิทธิ์การถดถอยนั้นแข็งแกร่งสำหรับแบบจำลองเชิงเปรียบเทียบ กฎง่ายๆประการหนึ่งคือการมีหลายระเบียนที่มากกว่า 5 (p + 2) โดยที่ p คือจำนวนของตัวทำนาย

  • สามารถแสดงให้เห็นได้ว่าการใช้ตัวทำนายที่ไม่สัมพันธ์กับตัวแปรผลลัพธ์จะเพิ่มความแปรปรวนของการคาดคะเน

  • สามารถแสดงให้เห็นได้ว่าการทิ้งตัวทำนายที่สัมพันธ์กับตัวแปรผลลัพธ์สามารถเพิ่มข้อผิดพลาดโดยเฉลี่ย (อคติ) ของการคาดคะเนได้

สองจุดสุดท้ายกำหนดว่ามีการแลกเปลี่ยนระหว่างตัวทำนายน้อยเกินไปและมากเกินไป โดยทั่วไป การยอมรับอคติบางอย่างสามารถลดความแปรปรวนในการคาดการณ์ได้ การแลกเปลี่ยนความอคติ-ความแปรปรวนนี้จำเป็นอย่างยิ่งสำหรับตัวทำนายหลายตัว เนื่องจากมีแนวโน้มว่าจะมีตัวแปรในแบบจำลองที่มีค่าสัมประสิทธิ์น้อยที่สอดคล้องกับค่าเบี่ยงเบนมาตรฐานของสัญญาณรบกวน และยังดูความสัมพันธ์อย่างน้อยปานกลางกับตัวแปรอื่นๆ

การลดตัวแปรดังกล่าวจะช่วยปรับปรุงการคาดคะเน เนื่องจากจะลดความแปรปรวนของการทำนาย การแลกเปลี่ยนความแปรปรวนอคติประเภทนี้เป็นองค์ประกอบสำคัญของขั้นตอนการทำเหมืองข้อมูลสำหรับการทำนายและการจัดประเภท