Computer >> คอมพิวเตอร์ >  >> การเขียนโปรแกรม >> การเขียนโปรแกรม

ต้นไม้การตัดสินใจใช้สำหรับการจำแนกประเภทอย่างไร


การเหนี่ยวนำแผนผังการตัดสินใจคือการเรียนรู้แผนผังการตัดสินใจจาก tupple การฝึกอบรมที่มีป้ายกำกับในชั้นเรียน แผนผังการตัดสินใจเป็นโครงสร้างแบบต้นไม้ที่มีลักษณะเหมือนไดอะแกรมตามลำดับ โดยที่โหนดภายใน (โหนดที่ไม่ใช่โหนด) ทุกโหนดจะระบุถึงการทดสอบแอตทริบิวต์ แต่ละสาขาจะกำหนดผลลัพธ์ของการทดสอบ และโหนดปลายสุดแต่ละโหนด (หรือโหนดปลายทาง) มีอิทธิพลต่อคลาส ฉลาก. โหนดที่สูงที่สุดในทรีคือโหนดรูท

กำหนดแนวคิดในการซื้อคอมพิวเตอร์ กล่าวคือ คาดการณ์ว่าผู้ใช้ที่ AllElectronics มีแนวโน้มที่จะซื้อคอมพิวเตอร์หรือไม่ โหนดภายในถูกระบุด้วยรูปสี่เหลี่ยมผืนผ้า และโหนดลีฟจะแสดงด้วยวงรี มีอัลกอริธึมทรีการตัดสินใจที่หลากหลายสร้างเฉพาะต้นไม้ไบนารี (โดยที่โหนดภายในทุกโหนดแยกย่อยไปยังโหนดอื่นอีกสองโหนดอย่างแม่นยำ) ในขณะที่ส่วนอื่นๆ สามารถสร้างทรีที่ไม่ใช่ไบนารีได้

กำหนด tuple, X ซึ่งเลเบลคลาสที่เกี่ยวข้องนั้นไม่ระบุชื่อ ค่าแอ็ตทริบิวต์ของ tuple จะถูกตรวจสอบกับแผนผังการตัดสินใจ ทิศทางจะถูกติดตามจากรูทไปยังโหนดลีฟ ซึ่งส่งผลต่อการทำนายคลาสสำหรับทูเพิลนั้น แผนผังการตัดสินใจสามารถเปลี่ยนเป็นกฎการจัดหมวดหมู่ได้

การพัฒนาตัวแยกประเภทแผนผังการตัดสินใจไม่จำเป็นต้องมีความรู้เกี่ยวกับโดเมนหรือการตั้งค่าพารามิเตอร์ ดังนั้นจึงเหมาะสำหรับการค้นพบความรู้เชิงสำรวจ

แผนผังการตัดสินใจสามารถจัดการข้อมูลขนาดใหญ่ได้ คำอธิบายของความรู้ที่ได้รับในรูปแบบต้นไม้นั้นใช้งานง่ายและมักจะเข้าใจง่ายโดยมนุษย์ ขั้นตอนการเรียนรู้และการจัดหมวดหมู่ของการเหนี่ยวนำแผนภูมิการตัดสินใจทำได้ง่ายและรวดเร็ว

โดยทั่วไป ตัวแยกประเภทแผนผังการตัดสินใจมีประสิทธิภาพที่ดี อย่างไรก็ตาม การใช้งานที่ประสบความสำเร็จขึ้นอยู่กับข้อมูลในมือ อัลกอริธึมการเหนี่ยวนำแผนผังการตัดสินใจถูกนำมาใช้สำหรับการจำแนกประเภทในด้านการใช้งานที่หลากหลาย รวมถึงการแพทย์ การผลิตและการผลิต การวิเคราะห์ทางการเงิน ดาราศาสตร์ และอณูชีววิทยา แผนผังการตัดสินใจขึ้นอยู่กับระบบการชักนำกฎทางการค้าหลายระบบ

ในระหว่างการก่อสร้างต้นไม้ การวัดการเลือกแอตทริบิวต์จะใช้ในการเลือกแอตทริบิวต์ที่แบ่ง tuples ออกเป็นคลาสต่างๆ ได้ดีที่สุด เมื่อมีการสร้างต้นไม้ตัดสินใจ บางสาขาสามารถสะท้อนเสียงรบกวนหรือสิ่งผิดปกติในบันทึกการฝึกอบรมได้ การตัดแต่งกิ่งต้นไม้พยายามที่จะรับรู้และกำจัดกิ่งก้านดังกล่าว โดยมีวัตถุประสงค์เพื่อปรับปรุงความถูกต้องของการจำแนกประเภทบนข้อมูลที่ยังไม่ได้ดู

ID3, C4.5 และ CART ให้สัตยาบันวิธีการโลภ (เช่นไม่ย้อนรอย) ซึ่งแผนภูมิการตัดสินใจถูกสร้างขึ้นในวิธีการแบ่งและพิชิตแบบเรียกซ้ำจากบนลงล่าง อัลกอริธึมหลายตัวสำหรับการเหนี่ยวนำแผนผังการตัดสินใจยังใช้วิธีการจากบนลงล่าง ซึ่งเริ่มต้นด้วยการรวบรวมการฝึกอบรมของทูเพิลและป้ายกำกับคลาสที่เกี่ยวข้อง คอลเล็กชันการฝึกอบรมจะแบ่งเป็นชุดย่อยย่อยๆ ในขณะที่มีการสร้างต้นไม้