ลักษณะของ Decision tree induction คืออะไร?

มีลักษณะต่างๆ ของการเหนี่ยวนำแผนผังการตัดสินใจดังนี้ −

การเหนี่ยวนำแผนผังการตัดสินใจเป็นวิธีการที่ไม่มีพารามิเตอร์สำหรับการสร้างแบบจำลองการจำแนกประเภท ในอีกแง่หนึ่ง ไม่จำเป็นต้องมีสมมติฐานก่อนหน้านี้เกี่ยวกับประเภทของการแจกแจงความน่าจะเป็นที่นักเรียนพอใจและแอตทริบิวต์ที่แตกต่างกัน

การค้นหาแผนภูมิต้นไม้การตัดสินใจที่เหมาะสมที่สุดคือปัญหา NP-complete อัลกอริธึมแผนผังการตัดสินใจจำนวนมากใช้วิธีฮิวริสติกเป็นแนวทางในการค้นหาในพื้นที่สมมติฐานที่กว้างใหญ่

มีเทคนิคต่างๆ ที่พัฒนาขึ้นสำหรับการสร้างแผนผังการตัดสินใจที่มีราคาไม่แพงทางคอมพิวเตอร์ ทำให้สามารถสร้างแบบจำลองได้อย่างรวดเร็วแม้ในขณะที่ชุดการฝึกมีขนาดใหญ่มาก นอกจากนี้ เนื่องจากแผนผังการตัดสินใจได้รับการพัฒนา การกำหนดข้อมูลการทดสอบจึงทำได้รวดเร็ว โดยมีความซับซ้อนน้อยที่สุดคือ O(w) โดยที่ w คือความลึกสูงสุดของแผนผัง

ต้นไม้แห่งการตัดสินใจ โดยเฉพาะต้นไม้ที่มีขนาดเล็กกว่า นั้นง่ายต่อการดำเนินการเชื่อมโยง ประสิทธิภาพของต้นไม้ยังเทียบได้กับวิธีการจำแนกหลายประเภทสำหรับชุดข้อมูลหลายชุด

แผนผังการตัดสินใจสนับสนุนคำอธิบายที่ชัดเจนสำหรับการเรียนรู้ฟังก์ชันที่มีคุณค่าแบบไม่ต่อเนื่อง แต่ไม่สามารถสรุปได้ดีกับวิธีการเฉพาะของปัญหาบูลีน อินสแตนซ์คือฟังก์ชันพาริตี ซึ่งมีค่าเป็น 0 (1) เมื่อมีแอตทริบิวต์บูลีนหลายค่าที่เป็นเลขคี่ (คู่) ที่มีค่า True

การมีอยู่ของแอตทริบิวต์ที่ซ้ำซ้อนไม่ได้ส่งผลต่อประสิทธิภาพของแผนผังการตัดสินใจ แอตทริบิวต์จะซ้ำซ้อนหากมีความสัมพันธ์อย่างมีประสิทธิภาพกับแอตทริบิวต์อื่นในข้อมูล ไม่สามารถใช้แอตทริบิวต์ซ้ำซ้อน 2 รายการในการหารได้เนื่องจากเลือกแอตทริบิวต์อื่นแล้ว

แต่ถ้าชุดข้อมูลประกอบด้วยแอตทริบิวต์ที่ไม่เกี่ยวข้องหลายรายการ เช่น คุณลักษณะที่ไม่เป็นประโยชน์สำหรับบริการการจัดประเภท ระบบอาจเลือกแอตทริบิวต์ที่ไม่เกี่ยวข้องหลายรายการโดยไม่ตั้งใจในระหว่างกระบวนการปลูกต้นไม้ ซึ่งส่งผลให้แผนภูมิการตัดสินใจมีขนาดใหญ่เกินความจำเป็น เทคนิคการเลือกคุณสมบัติสามารถช่วยปรับปรุงความถูกต้องของแผนผังการตัดสินใจโดยกำจัดแอตทริบิวต์ที่ไม่เกี่ยวข้องระหว่างการประมวลผลล่วงหน้า

เนื่องจากอัลกอริธึมทรีการตัดสินใจหลายแบบใช้วิธีการแบ่งพาร์ติชันแบบเรียกซ้ำจากบนลงล่าง ข้อมูลจำนวนมากจึงมีขนาดเล็กลงเมื่อสามารถสำรวจผ่านแผนผังได้ ที่โหนดปลายสุด ข้อมูลหลายอย่างอาจมีขนาดเล็กเกินไปที่จะสร้างการตัดสินใจที่มีนัยสำคัญทางสถิติเกี่ยวกับคำอธิบายคลาสของโหนด นี้เรียกว่าปัญหาการกระจายตัวของข้อมูล ทางออกหนึ่งที่เป็นไปได้คือไม่อนุญาตให้มีการแบ่งแยกมากขึ้นเมื่อข้อมูลหลายรายการต่ำกว่าเกณฑ์ที่กำหนด

ทรีย่อยสามารถทำซ้ำได้หลายครั้งในแผนผังการตัดสินใจ สิ่งนี้สร้างโครงสร้างการตัดสินใจที่ยากกว่าความจำเป็นและอาจซับซ้อนกว่าในการดำเนินการ สถานการณ์ต่างๆ อาจเพิ่มขึ้นจากการดำเนินการแผนผังการตัดสินใจที่ขึ้นอยู่กับเงื่อนไขการทดสอบแอตทริบิวต์เดียวที่โหนดภายในทุกเครื่อง

อัลกอริธึมแผนผังการตัดสินใจบางอย่างต้องใช้วิธีการแบ่งพาร์ติชันแบบแบ่งและพิชิต เงื่อนไขการทดสอบที่คล้ายกันนี้สามารถนำไปใช้กับหลายส่วนของพื้นที่แอตทริบิวต์ได้ ดังนั้น การแก้ปัญหาการจำลองแบบทรีย่อย