ต้นไม้การตัดสินใจเป็นกลไกแผนผังลำดับงาน โดยที่โหนดภายในแต่ละโหนดระบุการทดสอบแอตทริบิวต์ แต่ละแผนกกำหนดผลลัพธ์ของการทดสอบ และโหนดปลายสุดอธิบายคลาสหรือการแจกแจงคลาส โหนดที่ใหญ่ที่สุดในทรีคือโหนดรูท
ประเด็นของการสร้างแผนผังการตัดสินใจสามารถกำหนดแบบเรียกซ้ำได้ ขั้นแรก เลือกแอตทริบิวต์ที่จะวางที่โหนดราก และสร้างหนึ่งสาขาสำหรับแต่ละค่าที่เป็นไปได้ ซึ่งจะแบ่งชุดตัวอย่างออกเป็นส่วนย่อย หนึ่งชุดสำหรับแต่ละค่าของแอตทริบิวต์ สามารถทำซ้ำขั้นตอนซ้ำได้สำหรับทุกสาขา โดยใช้เฉพาะอินสแตนซ์ที่ไปถึงแผนกเท่านั้น หากบางอินสแตนซ์ที่โหนดมีการจัดประเภทที่คล้ายกัน ให้หยุดสร้างองค์ประกอบนั้นของทรี
การวัดความบริสุทธิ์ที่เราจะใช้เรียกว่าข้อมูลและวัดเป็นหน่วยที่เรียกว่าบิต เมื่อเชื่อมโยงกับแต่ละโหนดของแผนผัง จะแสดงจำนวนข้อมูลที่คาดหวังซึ่งจำเป็นต่อการระบุว่าควรจัดประเภทอินสแตนซ์ใหม่เป็นใช่หรือไม่ใช่ เนื่องจากอินสแตนซ์มาถึงโหนดนั้นแล้ว
การตัดแต่งกิ่งเป็นขั้นตอนที่ลดขนาดของต้นไม้ตัดสินใจ ใช้เพื่อลดความเสี่ยงของการใส่มากเกินไปโดยอธิบายขนาดของต้นไม้หรือลบพื้นที่ของต้นไม้ที่ให้พลังงานน้อย การตัดแต่งกิ่งให้โดยการตัดแต่งแผนกที่ติดตามความผิดปกติในข้อมูลการฝึกอบรมเนื่องจากเสียงรบกวนหรือสิ่งผิดปกติ และให้ต้นไม้เริ่มต้นในวิธีการที่ปรับปรุงประสิทธิภาพทั่วไปของต้นไม้
หลายวิธีมักใช้การวัดทางสถิติเพื่อลบแผนกที่มีความน่าเชื่อถือน้อยที่สุด ส่งผลให้จัดประเภทได้เร็วขึ้นและเพิ่มประสิทธิภาพในความสามารถของทรีในการจำแนกข้อมูลการทดสอบอิสระได้อย่างแม่นยำ
อัลกอริทึมสำหรับการเรียนรู้แผนผังการตัดสินใจ
อัลกอริทึม − สร้างแผนผังการตัดสินใจจากข้อมูลการฝึกอบรมที่ให้มา
ป้อนข้อมูล − ตัวอย่างการฝึกอบรม ตัวอย่าง อธิบายโดยคุณลักษณะที่แยกมูลค่า ชุดคุณลักษณะของนักเรียน คุณลักษณะ-รายการ
ผลผลิต − ต้นไม้ตัดสินใจ
วิธีการ
-
สร้างโหนด N;
-
หากกลุ่มตัวอย่างเป็นคลาสเดียวกัน C ดังนั้น
-
ส่งคืน N เป็นโหนดปลายสุดที่มีคลาส C
-
หากรายการแอตทริบิวต์เป็นโมฆะ
-
ส่งคืน N เป็นโหนดปลายสุดที่ติดป้ายกำกับด้วยคลาสที่ใช้บ่อยที่สุดในตัวอย่าง // คะแนนเสียงข้างมาก
-
เลือกแอตทริบิวต์ทดสอบ ซึ่งเป็นแอตทริบิวต์ระหว่างรายการแอตทริบิวต์ที่ได้รับข้อมูลมากที่สุด
-
ป้ายกำกับโหนด N พร้อมแอตทริบิวต์การทดสอบ
-
สำหรับแต่ละค่าที่รู้จัก ai ของคุณสมบัติการทดสอบ // แบ่งกลุ่มตัวอย่าง
-
ขยายสาขาจากโหนด N สำหรับเงื่อนไข test-attribute=ai .
-
ให้ i เป็นชุดของตัวอย่างในตัวอย่างที่ test-attribute=ai .
-
ถ้า si ว่างแล้ว
-
โดยสามารถเชื่อมโยงกับใบไม้ที่มีคลาสที่พบบ่อยที่สุดในตัวอย่างได้
-
มิฉะนั้นจะแนบโหนดที่ส่งคืนโดยสร้างแผนผังการตัดสินใจ ( si , รายการแอตทริบิวต์ - แอตทริบิวต์การทดสอบ)