Computer >> คอมพิวเตอร์ >  >> การเขียนโปรแกรม >> การเขียนโปรแกรม

วิธีการสุ่มตัวอย่างคืออะไร?


การสุ่มตัวอย่างเป็นวิธีที่ใช้กันอย่างแพร่หลายในการจัดการปัญหาความไม่สมดุลของคลาส แนวคิดของการสุ่มตัวอย่างคือการเปลี่ยนการกระจายตัวอย่างเพื่อให้คลาสที่หายากมีการกำหนดไว้อย่างดีในชุดฝึกอบรม มีเทคนิคต่างๆ สำหรับการสุ่มตัวอย่าง เช่น การสุ่มตัวอย่างต่ำ การสุ่มตัวอย่างเกิน และการผสมของทั้งสองวิธี ตัวอย่างเช่น พิจารณาชุดข้อมูลที่มีตัวอย่างเชิงบวก 100 ตัวอย่างและตัวอย่างเชิงลบ 1,000 ตัวอย่าง

ในวิธีการสุ่มตัวอย่างน้อย สุ่มตัวอย่าง 100 ตัวอย่างเชิงลบจะถูกเลือกเพื่อสร้างการฝึกอบรมที่กำหนดไว้ล่วงหน้าด้วยตัวอย่างเชิงบวกทั้งหมด ปัญหาหนึ่งของวิธีนี้คือไม่สามารถเลือกตัวอย่างเชิงลบที่เป็นประโยชน์บางส่วนสำหรับการฝึกอบรมได้ ดังนั้นจึงส่งผลให้น้อยกว่ารูปแบบที่เหมาะสมที่สุด

วิธีการคือการเอาชนะปัญหานี้คือการใช้การสุ่มตัวอย่างซ้ำหลายครั้งและเพื่อชักนำตัวแยกประเภทหลายตัวที่เหมือนกันกับแนวทาง Iearning ทั้งมวล สามารถใช้วิธีการสุ่มตัวอย่างแบบเน้นจุดต่ำ โดยที่กระบวนการสุ่มตัวอย่างจะสร้างทางเลือกที่มีข้อมูลประกอบเกี่ยวกับตัวอย่างเชิงลบที่ควรลบออก เช่น ตัวอย่างที่อยู่ไกลจากขอบเขตการตัดสินใจ

การสุ่มตัวอย่างมากเกินไปจะสะท้อนถึงตัวอย่างในเชิงบวกจนกว่าชุดการฝึกจะมีตัวอย่างบวกและลบจำนวนเท่ากัน ผลกระทบของการสุ่มตัวอย่างมากเกินไปในการพัฒนาขอบเขตการตัดสินใจโดยใช้ตัวแยกประเภทรวมถึงแผนผังการตัดสินใจ ตัวอย่างในเชิงบวกถูกจัดประเภทผิดเนื่องจากไม่มีตัวอย่างเพียงพอที่จะตรวจสอบการก่อตัวของขอบเขตการตัดสินใจใหม่เพื่อให้แยกอินสแตนซ์ในเชิงบวกและเชิงลบออกจากกัน

แต่สำหรับข้อมูลที่มีเสียงรบกวน การสุ่มตัวอย่างมากเกินไปอาจสร้างแบบจำลองที่มากเกินไป เนื่องจากตัวอย่างเสียงหลายตัวอย่างสามารถทำซ้ำได้หลายครั้ง การสุ่มตัวอย่างมากเกินไปจะไม่แทรกข้อมูลใหม่บางส่วนลงในชุดการฝึก การจำลองตัวอย่างในเชิงบวกช่วยหลีกเลี่ยงอัลกอริธึมการเรียนรู้จากการตัดแต่งส่วนเฉพาะของโมเดลที่กำหนดขอบเขตที่รวมตัวอย่างการฝึกอบรมบางส่วน (เช่น การแยกย่อยเล็กๆ) ตัวอย่างที่ดียิ่งขึ้นยังส่งผลต่อการเพิ่มประสิทธิภาพของเวลาในการคำนวณสำหรับการสร้างแบบจำลอง

วิธีไฮบริดต้องการชุดของการสุ่มตัวอย่างคลาสส่วนใหญ่และสุ่มตัวอย่างคลาสที่หายากเกินเพื่อใช้การแจกแจงคลาสที่เหมือนกัน การสุ่มตัวอย่างสามารถทำได้โดยใช้การสุ่มตัวอย่างย่อยแบบสุ่มหรือแบบเน้น การสุ่มตัวอย่างมากเกินไปสามารถทำได้โดยการจำลองตัวอย่างเชิงบวกในปัจจุบันหรือการสร้างตัวอย่างเชิงบวกใหม่ๆ ในพื้นที่ใกล้เคียงกับตัวอย่างเชิงบวกในปัจจุบัน