ปัญหาที่พบบ่อยในการทำเหมืองข้อมูลคือการใช้สมการถดถอยเพื่อคาดการณ์ค่าของตัวแปรตามเมื่อสามารถเลือกตัวแปรหลายตัวเป็นตัวทำนายในแบบจำลองนี้
การพิจารณาอีกประการหนึ่งที่สนับสนุนการรวมตัวแปรจำนวนมากด้วยความหวังว่าความสัมพันธ์ที่ซ่อนเร้นก่อนหน้านี้จะปรากฏขึ้น ตัวอย่างเช่น บริษัทแห่งหนึ่งพบว่าลูกค้าที่ซื้อแผ่นกันรอยสำหรับเก้าอี้และขาโต๊ะมีความเสี่ยงด้านเครดิตที่ต่ำกว่า
มีเหตุผลหลายประการที่ควรใช้ความระมัดระวังก่อนที่จะโยนตัวแปรที่เป็นไปได้ทั้งหมดลงในแบบจำลอง
-
อาจมีราคาสูงหรือเป็นไปไม่ได้ในการตั้งค่าตัวทำนายที่สมบูรณ์สำหรับการคาดการณ์ที่คาดหวัง
-
สามารถคำนวณตัวทำนายน้อยลงได้ถูกต้องมากขึ้น (เช่น ในแบบสำรวจ)
-
ยิ่งมีตัวทำนายมาก โอกาสในการสูญเสียค่าในข้อมูลก็จะสูงขึ้น หากเราลบหรือใส่บันทึกที่มีค่าที่หายไป ตัวทำนายหลายตัวจะนำไปสู่อัตราการลบหรือใส่ข้อมูลที่สูงขึ้น
-
Parsimony เป็นคุณสมบัติที่สำคัญของนางแบบที่ดี เราได้รับข้อมูลเชิงลึกมากขึ้นเกี่ยวกับอิทธิพลของตัวทำนายในแบบจำลองที่มีพารามิเตอร์ไม่กี่ตัว
-
ค่าประมาณของสัมประสิทธิ์การถดถอยมีแนวโน้มที่จะคลุมเครือ เนื่องจากความหลายแกนในแบบจำลองที่มีตัวแปรหลายตัว (Multicollinearity คือการมีอยู่ของตัวทำนายสองตัวหรือมากกว่าที่มีความสัมพันธ์เชิงเส้นเดียวกันกับตัวแปรผลลัพธ์)
-
ค่าสัมประสิทธิ์การถดถอยนั้นแข็งแกร่งสำหรับแบบจำลองเชิงเปรียบเทียบ กฎง่ายๆประการหนึ่งคือการมีหลายระเบียนที่มากกว่า 5 (p + 2) โดยที่ p คือจำนวนของตัวทำนาย
-
สามารถแสดงให้เห็นได้ว่าการใช้ตัวทำนายที่ไม่สัมพันธ์กับตัวแปรผลลัพธ์จะเพิ่มความแปรปรวนของการคาดคะเน
-
สามารถแสดงให้เห็นได้ว่าการทิ้งตัวทำนายที่สัมพันธ์กับตัวแปรผลลัพธ์สามารถเพิ่มข้อผิดพลาดโดยเฉลี่ย (อคติ) ของการคาดคะเนได้
สองจุดสุดท้ายกำหนดว่ามีการแลกเปลี่ยนระหว่างตัวทำนายน้อยเกินไปและมากเกินไป โดยทั่วไป การยอมรับอคติบางอย่างสามารถลดความแปรปรวนในการคาดการณ์ได้ การแลกเปลี่ยนความอคติ-ความแปรปรวนนี้จำเป็นอย่างยิ่งสำหรับตัวทำนายหลายตัว เนื่องจากมีแนวโน้มว่าจะมีตัวแปรในแบบจำลองที่มีค่าสัมประสิทธิ์น้อยที่สอดคล้องกับค่าเบี่ยงเบนมาตรฐานของสัญญาณรบกวน และยังดูความสัมพันธ์อย่างน้อยปานกลางกับตัวแปรอื่นๆ
การลดตัวแปรดังกล่าวจะช่วยปรับปรุงการคาดคะเน เนื่องจากจะลดความแปรปรวนของการทำนาย การแลกเปลี่ยนความแปรปรวนอคติประเภทนี้เป็นองค์ประกอบสำคัญของขั้นตอนการทำเหมืองข้อมูลสำหรับการทำนายและการจัดประเภท