Computer >> คอมพิวเตอร์ >  >> การเขียนโปรแกรม >> การเขียนโปรแกรม

อัลกอริทึมการตัดแต่งกิ่ง C5 คืออะไร?


C5 เป็นเวอร์ชันปัจจุบันของอัลกอริธึมทรีการตัดสินใจที่ J. Ross Quinlan นักวิจัยชาวออสเตรเลียได้พัฒนาและปรับแต่งมาหลายปีแล้ว ID3 เวอร์ชันก่อนหน้าซึ่งก่อตั้งขึ้นในปี 1986 มีอิทธิพลในด้านการเรียนรู้ของเครื่อง และมีการใช้รุ่นต่อจากนี้ในบริการขุดข้อมูลเชิงพาณิชย์หลายแห่ง

ต้นไม้ที่เพิ่มขึ้นโดย C5 จะเหมือนกับต้นไม้ที่ปรับปรุงโดย CART เช่นเดียวกับ CART อัลกอริธึม C5 จะปรับปรุงแผนผังโอเวอร์ฟิตก่อนแล้วจึงตัดกลับเพื่อสร้างโมเดลที่มีไดนามิกมากขึ้น วิธีการตัดแต่งกิ่งนั้นซับซ้อน แต่ C5 ไม่ได้สร้างการใช้ชุดการตรวจสอบเพื่อเลือกจากทรีย่อยของตัวเลือก

ข้อมูลที่คล้ายคลึงกันที่ใช้เพื่อเพิ่มต้นไม้ยังใช้เพื่อกำหนดวิธีการตัดแต่งกิ่งต้นไม้ สิ่งนี้สามารถสะท้อนถึงพื้นฐานของอัลกอริธึมในโลกวิชาการ ซึ่งก่อนหน้านี้ นักวิจัยของมหาวิทยาลัยมีช่วงเวลาที่ซับซ้อนในการได้รับบันทึกจริงจำนวนมากเพื่อใช้สำหรับชุดการฝึกอบรม ดังนั้น พวกเขาจึงใช้เวลาและความพยายามอย่างมากในการพยายามเกลี้ยกล่อมข้อมูลบางส่วนจากชุดข้อมูลที่ไม่ดีในตอนท้าย ซึ่งเป็นปัญหาที่ผู้ขุดข้อมูลในโลกธุรกิจมองไม่เห็น

C5 ตัดต้นไม้โดยกำหนดอัตราความผิดพลาดที่แต่ละโหนด และพิจารณาว่าอัตราความผิดพลาดที่แท้จริงนั้นแย่กว่ามาก หากระเบียน N ปรากฏที่โหนด และ E ถูกกำหนดไม่ถูกต้อง ดังนั้น อัตราข้อผิดพลาดที่โหนดนั้นจะเป็น E/N

C5 ต้องการการเปรียบเทียบด้วยการสุ่มตัวอย่างทางสถิติเพื่อให้ปรากฏขึ้นพร้อมกับค่าประมาณของค่าความผิดพลาดที่แย่ที่สุดที่น่าจะมองเห็นได้ในทันที การเปรียบเทียบดำเนินการโดยการคิดถึงข้อมูลที่ส่วนท้ายเป็นการกำหนดผลลัพธ์ของลำดับการทดลอง แต่ละแบบสามารถมีหนึ่งในสองผลลัพธ์ที่เป็นไปได้

C5 พิจารณาว่าจำนวนข้อผิดพลาดที่สังเกตพบในบันทึกการฝึกคือจุดต่ำสุดของช่วงนี้ และแทนที่จุดสูงสุดเพื่อรับต้นทุนข้อผิดพลาดที่คาดการณ์ไว้ E/N ในบันทึกที่มองไม่เห็น ยิ่งโหนดต่ำ ค่าความผิดพลาดก็จะยิ่งมากขึ้น เมื่อค่าประมาณระดับสูงของข้อผิดพลาดหลายรายการในโหนดหนึ่งๆ น้อยกว่าค่าประมาณสำหรับข้อผิดพลาดของโหนดย่อย ดังนั้น รายการย่อยจะถูกตัดออก

เป้าหมายหลักของโมเดลคือการสร้างการคาดการณ์ที่สอดคล้องกันในข้อมูลที่มองไม่เห็นก่อนหน้านี้ กฎบางอย่างที่ไม่สามารถบรรลุเป้าหมายนั้นควรถูกลบออกจากโมเดล เครื่องมือขุดข้อมูลบางอย่างช่วยให้ลูกค้าสามารถตัดโครงสร้างการตัดสินใจได้ด้วยตนเอง

นี่เป็นสิ่งอำนวยความสะดวกที่เป็นประโยชน์ แต่สามารถดูซอฟต์แวร์การทำเหมืองข้อมูลที่สนับสนุนการตัดแต่งกิ่งอัตโนมัติตามไดนามิกเป็นตัวเลือกได้ แอปพลิเคชันดังกล่าวจำเป็นต้องมีองค์ประกอบเชิงอัตวิสัยน้อยกว่าสำหรับการปฏิเสธการแบ่งส่วนมากกว่า "การกระจายผลชุดการตรวจสอบความถูกต้องมีมุมมองที่แตกต่างจากการกระจายผลลัพธ์ของกลุ่มการฝึกอบรม