Computer >> คอมพิวเตอร์ >  >> การเขียนโปรแกรม >> การเขียนโปรแกรม

โมเดลลิเนียร์ทั่วไปคืออะไร?


ตัวแบบเชิงเส้นทั่วไปกำหนดอำนาจทางทฤษฎีที่สามารถใช้การถดถอยเชิงเส้นเพื่อสร้างแบบจำลองของตัวแปรตอบสนองตามหมวดหมู่ ในแบบจำลองเชิงเส้นทั่วไป ความแปรปรวนของตัวแปรตอบสนอง y เป็นฟังก์ชันของค่าเฉลี่ยของ y ซึ่งแตกต่างจากการถดถอยเชิงเส้น โดยที่ความแปรปรวนของ y เป็นค่าคงที่

โมเดลเชิงเส้นตรงทั่วไป (GLM) เป็นการขยายโมเดลเชิงเส้นแบบดั้งเดิม อัลกอริธึมนี้เหมาะกับโมเดลเชิงเส้นตรงทั่วไปกับข้อมูลโดยเพิ่มความเป็นไปได้ในการบันทึกให้มากที่สุด ค่าปรับสุทธิแบบยืดหยุ่นสามารถใช้สำหรับการทำให้เป็นมาตรฐานของพารามิเตอร์ได้ การคำนวณความเหมาะสมของแบบจำลองเป็นแบบคู่ขนาน รวดเร็วอย่างสมบูรณ์ และปรับขนาดได้อย่างสมบูรณ์สำหรับแบบจำลองที่มีตัวทำนายจำนวนที่แน่นอนพร้อมค่าสัมประสิทธิ์ที่ไม่เป็นศูนย์

แบบจำลองเชิงเส้นทั่วไปมีสองประเภท เช่น การถดถอยโลจิสติก และการถดถอยแบบปัวซอง การถดถอยโลจิสติกจำลองความน่าจะเป็นของเหตุการณ์ต่างๆ ที่ปรากฏเป็นฟังก์ชันเชิงเส้นของกลุ่มตัวแปรทำนาย ข้อมูลการนับมักแสดงการแจกแจงแบบปัวซองและโดยทั่วไปจะสร้างแบบจำลองโดยใช้การถดถอยปัวซอง

แบบจำลองบันทึกเชิงเส้นตรง การแจกแจงความน่าจะเป็นแบบหลายมิติที่ไม่ต่อเนื่องกัน สามารถใช้ในการคำนวณค่าความน่าจะเป็นที่เกี่ยวข้องกับเซลล์คิวบ์ข้อมูล ตัวอย่างเช่น สมมติว่าข้อมูลที่ระบุสำหรับแอตทริบิวต์ เมือง รายการ ปี และยอดขาย ในแนวทางบันทึกเชิงเส้น คุณลักษณะทั้งหมดควรจัดหมวดหมู่ และแอตทริบิวต์ที่มีมูลค่าต่อเนื่อง (เช่น การขาย) ควรแยกออก

วิธีนี้สามารถใช้ในการคำนวณความน่าจะเป็นของแต่ละเซลล์ในลูกบาศก์ฐาน 4 มิติสำหรับแอตทริบิวต์ที่กำหนด ขึ้นอยู่กับลูกบาศก์ 2 มิติสำหรับเมืองและรายการ เมืองและปี เมืองและยอดขาย และลูกบาศก์สามมิติ สำหรับรายการ ปี และการขาย ในวิธีนี้ สามารถใช้วิธีการวนซ้ำเพื่อสร้างคิวบ์ข้อมูลที่มีลำดับสูงกว่าจากลำดับที่ต่ำกว่า

วิธีการนี้ขยายขนาดได้ดีเพื่อให้สามารถใช้ได้กับหลายมิติ นอกเหนือจากการทำนายแล้ว แบบจำลองบันทึกเชิงเส้นยังมีประโยชน์สำหรับการบีบอัดข้อมูล (เนื่องจากคิวบอยด์ลำดับที่เล็กกว่าโดยทั่วไปใช้พื้นที่น้อยกว่าลูกบาศก์ฐาน) และการปรับข้อมูลให้เรียบ (เนื่องจากเซลล์คำนวณในลูกบาศก์ลำดับที่เล็กกว่านั้นขึ้นอยู่กับรูปแบบการสุ่มตัวอย่างน้อยกว่า เซลล์คำนวณในลูกบาศก์ฐาน)

การเหนี่ยวนำแผนผังการตัดสินใจอาจมีความเหมาะสมในการคาดการณ์ค่าต่อเนื่อง (เรียงตามลำดับ) แทนที่จะเป็นป้ายกำกับระดับ ต้นไม้มีสองประเภทสำหรับทำนายการถดถอยและต้นไม้จำลอง แผนภูมิการถดถอยได้รับการแนะนำเป็นองค์ประกอบของระบบการเรียนรู้ CART

ใบไม้ต้นไม้การถดถอยทุกใบจะบันทึกการทำนายมูลค่าต่อเนื่อง ซึ่งเป็นค่าเฉลี่ยของแอตทริบิวต์ที่คาดการณ์ไว้สำหรับสิ่งอันดับการฝึกอบรมที่เข้าใจใบไม้ ในทางตรงกันข้าม ในต้นไม้แบบจำลอง ใบไม้ทุกใบมีอิทธิพลต่อแบบจำลองการถดถอยและสมการเชิงเส้นหลายตัวแปรสำหรับแอตทริบิวต์ที่คาดการณ์ไว้ การถดถอยและแผนผังแบบจำลองมีอิทธิพลต่อประสิทธิภาพมากกว่าการถดถอยเชิงเส้นเมื่อข้อมูลไม่ได้กำหนดไว้อย่างดีโดยแบบจำลองเชิงเส้นอย่างง่าย