วิธีการประมาณค่าในการทำเหมืองข้อมูลมีอะไรบ้าง?

การตรวจสอบข้ามสิบเท่าเป็นวิธีมาตรฐานในการวัดอัตราความผิดพลาดของรูปแบบการเรียนรู้ในชุดข้อมูลเฉพาะ เพื่อผลลัพธ์ที่เชื่อถือได้ การตรวจสอบข้าม 10 เท่า มีสองวิธีคือ Leave-one-out Cross-validation และ bootstrap

การตรวจสอบความถูกต้องระหว่างกันแบบปล่อยครั้งเดียวทิ้ง

การตรวจสอบความถูกต้องไขว้แบบปล่อยครั้งเดียวเป็นการตรวจสอบข้ามส่วน n อย่างเปิดเผย โดยที่ n คืออินสแตนซ์หลายรายการในชุดข้อมูล แต่ละอินสแตนซ์จะถูกละทิ้ง และรูปแบบการเรียนรู้จะได้รับการฝึกอบรมในอินสแตนซ์ที่เหลือทั้งหมด โดยคำนวณจากความถูกต้องในอินสแตนซ์ที่เหลือ—หนึ่งหรือศูนย์สำหรับความสำเร็จหรือความล้มเหลว ตามลำดับ ผลลัพธ์ของการตัดสินทั้งหมด n ครั้ง หนึ่งรายการสำหรับแต่ละกลุ่มของชุดข้อมูล จะถูกหาค่าเฉลี่ย และค่าเฉลี่ยนั้นจะกำหนดค่าประมาณข้อผิดพลาดล่าสุด

กระบวนการนี้น่าสนใจด้วยเหตุผลสองประการ อย่างแรก คุณสามารถใช้จำนวนเร็กคอร์ดสูงสุดสำหรับการฝึกอบรมได้ในแต่ละกรณี ซึ่งน่าจะช่วยเพิ่มโอกาสที่ตัวแยกประเภทจะเป็นของจริง

ประการที่สอง กระบวนการถูกกำหนด - ไม่มีการสุ่มตัวอย่างที่เกี่ยวข้อง ไม่มีประโยชน์ที่จะทำซ้ำ 10 ครั้งหรือทำซ้ำเลย จะได้รับผลลัพธ์เดียวกันทุกครั้ง เมื่อเทียบกับสิ่งนี้คือต้นทุนในการคำนวณที่สูง เนื่องจากควรดำเนินการขั้นตอนการเรียนรู้ทั้งหมด n ครั้ง และโดยทั่วไปแล้วสิ่งนี้ไม่สามารถทำได้สำหรับชุดข้อมูลที่สูง

บู๊ทสแตรป

วิธีการประมาณค่าที่สองที่เราอธิบายคือ บูตสแตรป อิงตามขั้นตอนทางสถิติของการสุ่มตัวอย่างด้วยการเปลี่ยน ก่อนหน้านี้ เมื่อใดก็ตามที่นำตัวอย่างจากชุดข้อมูลไปเป็นชุดการฝึกอบรมหรือชุดทดสอบ ตัวอย่างจะถูกวาดโดยไม่มีการเปลี่ยน

แผนการเรียนรู้ส่วนใหญ่สามารถใช้อินสแตนซ์เดียวกันได้สองครั้ง และสร้างความแตกต่างในผลลัพธ์ของการเรียนรู้หากมีอยู่ในชุดการฝึกสองครั้ง แนวคิดของบูตสแตรปคือการสุ่มตัวอย่างชุดข้อมูลด้วยการแทนที่เพื่อสร้างชุดการฝึก เราจะอธิบายตัวแปรเฉพาะอย่างลึกลับ (แต่สำหรับเหตุผลที่จะปรากฎในไม่ช้านี้) ที่เรียกว่าบูตสแตรป 0.632

สำหรับสิ่งนี้ ชุดข้อมูลของ n อินสแตนซ์จะถูกสุ่มตัวอย่าง n ครั้ง พร้อมการกู้คืน เพื่อให้ชุดข้อมูลที่แตกต่างกันของ n อินสแตนซ์ เนื่องจากองค์ประกอบบางอย่างในชุดข้อมูลที่สองนี้ (เกือบจะแน่นอน) จะถูกทำซ้ำ จะต้องมีบางอินสแตนซ์ในชุดข้อมูลดั้งเดิมที่ยังไม่ได้เลือก—เราจะใช้สิ่งเหล่านี้เป็นอินสแตนซ์ทดสอบ

ตัวเลขที่ได้จากการฝึกระบบการเรียนรู้ในชุดฝึกและการคำนวณข้อผิดพลาดเหนือชุดทดสอบจะเป็นการประมาณการในแง่ร้ายของอัตราความผิดพลาดที่แท้จริง เนื่องจากชุดการฝึกแม้ว่าจะมีขนาด n แต่ก็มีเพียง 63% ของจำนวนตัวอย่างทั้งหมด ซึ่งไม่มากนักเมื่อเทียบกับ 90% ที่ใช้ในการตรวจสอบข้ามเป็นสิบเท่า