Computer >> คอมพิวเตอร์ >  >> การเขียนโปรแกรม >> การเขียนโปรแกรม

จะสร้างแผนภูมิการตัดสินใจได้อย่างไร?


ต้นไม้การตัดสินใจเป็นกลไกแผนผังลำดับงาน โดยที่โหนดภายในแต่ละโหนดระบุการทดสอบแอตทริบิวต์ แต่ละแผนกกำหนดผลลัพธ์ของการทดสอบ และโหนดปลายสุดอธิบายคลาสหรือการแจกแจงคลาส โหนดที่ใหญ่ที่สุดในทรีคือโหนดรูท

ประเด็นของการสร้างแผนผังการตัดสินใจสามารถกำหนดแบบเรียกซ้ำได้ ขั้นแรก เลือกแอตทริบิวต์ที่จะวางที่โหนดราก และสร้างหนึ่งสาขาสำหรับแต่ละค่าที่เป็นไปได้ ซึ่งจะแบ่งชุดตัวอย่างออกเป็นส่วนย่อย หนึ่งชุดสำหรับแต่ละค่าของแอตทริบิวต์ สามารถทำซ้ำขั้นตอนซ้ำได้สำหรับทุกสาขา โดยใช้เฉพาะอินสแตนซ์ที่ไปถึงแผนกเท่านั้น หากบางอินสแตนซ์ที่โหนดมีการจัดประเภทที่คล้ายกัน ให้หยุดสร้างองค์ประกอบนั้นของทรี

การวัดความบริสุทธิ์ที่เราจะใช้เรียกว่าข้อมูลและวัดเป็นหน่วยที่เรียกว่าบิต เมื่อเชื่อมโยงกับแต่ละโหนดของแผนผัง จะแสดงจำนวนข้อมูลที่คาดหวังซึ่งจำเป็นต่อการระบุว่าควรจัดประเภทอินสแตนซ์ใหม่เป็นใช่หรือไม่ใช่ เนื่องจากอินสแตนซ์มาถึงโหนดนั้นแล้ว

การตัดแต่งกิ่งเป็นขั้นตอนที่ลดขนาดของต้นไม้ตัดสินใจ ใช้เพื่อลดความเสี่ยงของการใส่มากเกินไปโดยอธิบายขนาดของต้นไม้หรือลบพื้นที่ของต้นไม้ที่ให้พลังงานน้อย การตัดแต่งกิ่งให้โดยการตัดแต่งแผนกที่ติดตามความผิดปกติในข้อมูลการฝึกอบรมเนื่องจากเสียงรบกวนหรือสิ่งผิดปกติ และให้ต้นไม้เริ่มต้นในวิธีการที่ปรับปรุงประสิทธิภาพทั่วไปของต้นไม้

หลายวิธีมักใช้การวัดทางสถิติเพื่อลบแผนกที่มีความน่าเชื่อถือน้อยที่สุด ส่งผลให้จัดประเภทได้เร็วขึ้นและเพิ่มประสิทธิภาพในความสามารถของทรีในการจำแนกข้อมูลการทดสอบอิสระได้อย่างแม่นยำ

อัลกอริทึมสำหรับการเรียนรู้แผนผังการตัดสินใจ

อัลกอริทึม − สร้างแผนผังการตัดสินใจจากข้อมูลการฝึกอบรมที่ให้มา

ป้อนข้อมูล − ตัวอย่างการฝึกอบรม ตัวอย่าง อธิบายโดยคุณลักษณะที่แยกมูลค่า ชุดคุณลักษณะของนักเรียน คุณลักษณะ-รายการ

ผลผลิต − ต้นไม้ตัดสินใจ

วิธีการ

  • สร้างโหนด N;

  • หากกลุ่มตัวอย่างเป็นคลาสเดียวกัน C ดังนั้น

  • ส่งคืน N เป็นโหนดปลายสุดที่มีคลาส C

  • หากรายการแอตทริบิวต์เป็นโมฆะ

  • ส่งคืน N เป็นโหนดปลายสุดที่ติดป้ายกำกับด้วยคลาสที่ใช้บ่อยที่สุดในตัวอย่าง // คะแนนเสียงข้างมาก

  • เลือกแอตทริบิวต์ทดสอบ ซึ่งเป็นแอตทริบิวต์ระหว่างรายการแอตทริบิวต์ที่ได้รับข้อมูลมากที่สุด

  • ป้ายกำกับโหนด N พร้อมแอตทริบิวต์การทดสอบ

  • สำหรับแต่ละค่าที่รู้จัก ai ของคุณสมบัติการทดสอบ // แบ่งกลุ่มตัวอย่าง

  • ขยายสาขาจากโหนด N สำหรับเงื่อนไข test-attribute=ai .

  • ให้ i เป็นชุดของตัวอย่างในตัวอย่างที่ test-attribute=ai .

  • ถ้า si ว่างแล้ว

  • โดยสามารถเชื่อมโยงกับใบไม้ที่มีคลาสที่พบบ่อยที่สุดในตัวอย่างได้

  • มิฉะนั้นจะแนบโหนดที่ส่งคืนโดยสร้างแผนผังการตัดสินใจ ( si , รายการแอตทริบิวต์ - แอตทริบิวต์การทดสอบ)