โครงสร้างการตัดสินใจเป็นหน่วยการสร้างพื้นฐานของอัลกอริธึมฟอเรสต์แบบสุ่ม ถือว่าเป็นหนึ่งในอัลกอริธึมที่ได้รับความนิยมมากที่สุดในการเรียนรู้ของเครื่องและใช้เพื่อวัตถุประสงค์ในการจัดหมวดหมู่ การตัดสินใจที่กำหนดโดยแผนผังการตัดสินใจสามารถใช้เพื่ออธิบายว่าทำไมจึงมีการคาดการณ์บางอย่าง ซึ่งหมายความว่ากระบวนการเข้าและออกจากระบบจะชัดเจนสำหรับผู้ใช้ พวกเขายังเป็นที่รู้จักกันในนาม CART เช่นการจำแนกและการถดถอยต้นไม้ สามารถมองเห็นได้เป็นไบนารีทรี (อันที่ศึกษาในโครงสร้างข้อมูลและอัลกอริธึม)
ทุกโหนดในแผนผังแสดงถึงตัวแปรอินพุตเดี่ยว และโหนดปลายสุด (ซึ่งเรียกอีกอย่างว่าโหนดเทอร์มินัล) มีตัวแปรเอาต์พุต โหนดปลายสุดเหล่านี้ใช้สำหรับการทำนายบนโหนด เมื่อมีการสร้างโครงสร้างการตัดสินใจ แนวคิดพื้นฐานคือพื้นที่ที่กำหนดจะถูกแบ่งออกเป็นหลายส่วน ค่าทั้งหมดถูกจัดทำขึ้นและพยายามแยกส่วนที่แตกต่างกันเพื่อให้ได้ต้นทุนที่น้อยลงและค่าการทำนายที่ดีที่สุด ค่าเหล่านี้ถูกเลือกอย่างตะกละตะกลาม
การแยกโหนดเหล่านี้จะดำเนินต่อไปจนกว่าจะถึงความลึกสูงสุดของต้นไม้ แนวคิดเบื้องหลังการใช้โครงสร้างการตัดสินใจคือการแบ่งชุดข้อมูลที่ป้อนเข้าเป็นชุดข้อมูลที่มีขนาดเล็กลงตามค่าคุณลักษณะเฉพาะ จนกว่าตัวแปรเป้าหมายทุกตัวจะอยู่ในหมวดหมู่เดียว การแบ่งส่วนนี้จัดทำขึ้นเพื่อให้ได้รับข้อมูลสูงสุดในทุกขั้นตอน
แผนภูมิการตัดสินใจทุกต้นเริ่มต้นด้วยการรูท และนี่คือสถานที่ที่มีการแยกส่วนแรก ควรหาวิธีที่มีประสิทธิภาพเพื่อให้แน่ใจว่ามีการกำหนดโหนด
นี่คือที่มาของค่า Gini Gini ถือเป็นหนึ่งในการวัดที่ใช้บ่อยที่สุดในการวัดความไม่เท่าเทียมกัน ความไม่เท่าเทียมกันหมายถึงคลาสเป้าหมาย (เอาต์พุต) ซึ่งทุกชุดย่อยในโหนดอาจเป็นของ
ไวยากรณ์ด้านล่างถูกใช้ในขณะที่ใช้ DecisionTreeRegressor -
class sklearn.tree.DecisionTreeRegressor (*, criterion=’mse’,…
ให้เราเข้าใจว่า DecisionTreeRegressor สามารถใช้ได้อย่างไร -
ตัวอย่าง
from sklearn import tree my_data = [[1, 1], [5, 5], [2,3], [7,11]] target_vals = [0.1, 1.5, 0.75, 1.73] clf = tree.DecisionTreeRegressor() print("The decision tree regressor has been called") DTreg = clf.fit(my_data, target_vals) print("Data has been fit") pred_val = DTreg.predict([[4, 7]]) print("The predicted data is ") print(pred_val)
ผลลัพธ์
The decision tree regressor has been called Data has been fit The predicted data is [1.5]
คำอธิบาย
- แพ็คเกจที่จำเป็นจะถูกนำเข้าไปยังสภาพแวดล้อม
- มีการกำหนดเวกเตอร์คุณลักษณะและค่าเป้าหมาย
- มีการเรียก DecisionTreeRegressor และข้อมูลนั้นเหมาะสมกับโมเดล
- ฟังก์ชัน "ทำนาย" ใช้เพื่อคาดคะเนค่าของค่าคุณลักษณะ
- ผลลัพธ์จะแสดงบนคอนโซล