Computer >> คอมพิวเตอร์ >  >> การเขียนโปรแกรม >> การเขียนโปรแกรม

ป่าสุ่มคืออะไร?


Random Forest เป็นคลาสของวิธีการทั้งมวลที่ออกแบบมาโดยเฉพาะสำหรับตัวแยกประเภทแผนผังการตัดสินใจ มันรวมการทำนายที่ทำโดยต้นไม้การตัดสินใจหลายต้น โดยที่ต้นไม้แต่ละต้นจะถูกสร้างขึ้นตามค่าของชุดเวกเตอร์สุ่มแยกกัน

เวกเตอร์สุ่มถูกสร้างขึ้นจากการแจกแจงความน่าจะเป็นคงที่ ซึ่งแตกต่างจากวิธีการแบบปรับตัวที่ใช้ใน AdaBoost ซึ่งการแจกแจงความน่าจะเป็นนั้นมีความหลากหลายสำหรับอินสแตนซ์เป้าหมายที่จำแนกได้ยาก

การบรรจุถุงต้องใช้ต้นไม้ตัดสินใจเป็นกรณีที่ชัดเจนของป่าสุ่ม โดยจะมีการแทรกการสุ่มเข้าไปในขั้นตอนการสร้างแบบจำลองโดยการสุ่มเลือก N ตัวอย่างพร้อมการฟื้นฟูจากชุดการฝึกเริ่มต้น การบรรจุถุงยังต้องการการกระจายความน่าจะเป็นที่เหมือนกันเพื่อสร้างตัวอย่างที่บูตสแตรปตลอดขั้นตอนการสร้างแบบจำลองที่สมบูรณ์

ต้นไม้การตัดสินใจแต่ละต้นต้องการเวกเตอร์สุ่มที่สร้างจากการแจกแจงความน่าจะเป็นคงที่บางค่า เวกเตอร์สุ่มสามารถรวมเข้ากับขั้นตอนการปลูกต้นไม้ได้หลายวิธี วิธีแรกคือการสุ่มเลือกคุณสมบัติอินพุต F เพื่อแบ่งที่แต่ละโหนดของแผนผังการตัดสินใจ

ด้วยเหตุนี้ แทนที่จะตรวจสอบคุณลักษณะที่สามารถเข้าถึงได้ทั้งหมด การตัดสินใจแบ่งโหนดจะตัดสินใจจากคุณลักษณะที่เลือกเหล่านี้ ต้นไม้ได้รับการพัฒนาให้สมบูรณ์โดยไม่ต้องตัดแต่งกิ่ง ซึ่งจะช่วยลดความเอนเอียงในแผนผังผลลัพธ์ได้

เนื่องจากมีการสร้างต้นไม้ การคาดคะเนจึงเชื่อมโยงกันโดยใช้รูปแบบการลงคะแนนเสียงข้างมาก วิธีการนี้เรียกว่า Forest-Rl โดยที่ RI กำหนดการเลือกอินพุตแบบสุ่ม มันสามารถปรับปรุงการสุ่ม สามารถใช้การบรรจุถุงเพื่อสร้างตัวอย่างบูตสแตรปสำหรับ Forest-RI

ความคงทนและความสัมพันธ์ของป่าสุ่มขึ้นอยู่กับขนาดของ F หาก F มีขนาดเล็กเพียงพอ อิทธิพลของต้นไม้จะมีความสัมพันธ์น้อยลง กล่าวอีกนัยหนึ่ง ความแข็งแกร่งของตัวแยกประเภทต้นไม้มีอิทธิพลต่อการปรับปรุงด้วยคุณสมบัติจำนวนมากขึ้น F.

หากคุณสมบัติดั้งเดิมหลายรายการ d เล็กเกินไป การเลือกชุดคุณสมบัติสุ่มแยกต่างหากสำหรับการสร้างแผนผังการตัดสินใจจึงเป็นเรื่องยาก มีวิธีหนึ่งที่จะเพิ่มพื้นที่คุณสมบัติคือการสร้างชุดเชิงเส้นของคุณสมบัติอินพุต โดยเฉพาะอย่างยิ่ง ในแต่ละโหนด คุณลักษณะใหม่ถูกสร้างขึ้นโดยสุ่มเลือก L ของคุณสมบัติอินพุต

คุณลักษณะอินพุตเชื่อมโยงเป็นเส้นตรงโดยใช้สัมประสิทธิ์ที่สร้างจากการแจกแจงแบบสม่ำเสมอในช่วง [-1, 1] ที่ทุกโหนด F ของคุณสมบัติใหม่ที่รวมกันแบบสุ่มนั้นถูกสร้างขึ้น และในที่สุดก็เลือกสิ่งที่ดีที่สุดเพื่อแบ่งโหนด วิธีการนี้เรียกว่า Forest-RC