Computer >> คอมพิวเตอร์ >  >> การเขียนโปรแกรม >> การเขียนโปรแกรม

วิธีการประเมินประสิทธิภาพของลักษณนามคืออะไร?


มีหลายวิธีในการประเมินข้อผิดพลาดทั่วไปของแบบจำลองระหว่างการฝึก ข้อผิดพลาดโดยประมาณสนับสนุนอัลกอริธึมการเรียนรู้เพื่อเลือกแบบจำลอง กล่าวคือ เพื่อค้นหาแบบจำลองของความซับซ้อนที่เหมาะสมที่ไม่ได้รับผลกระทบจากการใช้มากเกินไป

เนื่องจากมีการสร้างแบบจำลองขึ้น จึงสามารถใช้ในชุดการทดสอบเพื่อคาดการณ์ป้ายกำกับคลาสของข้อมูลที่มองไม่เห็นก่อนหน้านี้ มักเป็นประโยชน์ในการวัดประสิทธิภาพของแบบจำลองในชุดทดสอบ เนื่องจากการวัดดังกล่าวจะให้ค่าประมาณที่เป็นกลางของข้อผิดพลาดในการสรุปรวม สามารถใช้อัตราความแม่นยำหรือข้อผิดพลาดที่ประเมินจากชุดทดสอบเพื่อเปรียบเทียบประสิทธิภาพการเชื่อมโยงของตัวแยกประเภทหลายตัวในโดเมนที่เท่ากันได้

มีวิธีการต่างๆ ที่ใช้กันทั่วไปในการประเมินประสิทธิภาพของตัวแยกประเภทซึ่งมีดังต่อไปนี้ -

วิธีการพักสาย − ในวิธีระงับ บันทึกเริ่มต้นพร้อมอินสแตนซ์ที่ติดป้ายกำกับจะถูกแบ่งออกเป็นสองชุดที่ไม่ปะติดปะต่อกัน ซึ่งเรียกว่าชุดการฝึกและชุดทดสอบตามลำดับ โมเดลการจัดหมวดหมู่เกิดขึ้นจากชุดการฝึกและคำนวณการใช้งานในชุดทดสอบ

ประสิทธิภาพของตัวแยกประเภทสามารถคำนวณได้ขึ้นอยู่กับประสิทธิภาพของตัวแบบเหนี่ยวนำในชุดทดสอบ วิธีการถือครองมีข้อเสียที่รู้จักกันดีหลายประการ ประการแรก อินสแตนซ์ที่มีป้ายกำกับบางรายการสามารถเข้าถึงได้สำหรับการฝึกอบรม เนื่องจากข้อมูลหลายอย่างถูกระงับสำหรับการทดสอบ

ด้วยเหตุนี้ แบบจำลองเหนี่ยวนำจึงไม่สามารถดีที่สุดเท่าเมื่อตัวอย่างที่มีป้ายกำกับบางตัวถูกนำมาใช้ในการฝึกอบรม ประการที่สอง โมเดลสามารถพึ่งพาโครงสร้างของชุดการฝึกและการทดสอบได้อย่างมหาศาล

ในทางกลับกัน หากชุดการฝึกมีขนาดใหญ่เกินไป ความแม่นยำโดยประมาณที่คำนวณจากชุดทดสอบที่เล็กกว่านั้น Iess เชื่อถือได้ ดังนั้น การประมาณค่าจึงมีช่วงความเชื่อมั่นที่กว้าง สุดท้ายนี้ การฝึกและชุดทดสอบจะไม่แยกจากกัน

สุ่มตัวอย่าง − วิธีการพักสายสามารถทำซ้ำได้หลายครั้งเพื่อเพิ่มประสิทธิภาพในการคำนวณการใช้งานตัวแยกประเภท วิธีนี้เรียกว่าการสุ่มตัวอย่างย่อยแบบสุ่ม

ให้ acci เป็นโมเดลที่แม่นยำในช่วง i th การวนซ้ำ ความแม่นยำโดยรวมกำหนดโดย accsub =$\mathrm{\displaystyle\sum\limits_{i=1}^k}$acci /k

การสุ่มตัวอย่างย่อยแบบสุ่มพบปัญหาหลายประการที่เกี่ยวข้องกับแนวทางการระงับเนื่องจากไม่ได้ใช้ข้อมูลมากพอที่จะนำไปใช้ในการฝึกอบรม นอกจากนี้ยังไม่มีการควบคุมหลายครั้งที่แต่ละข้อมูลใช้สำหรับการทดสอบและการฝึกอบรม ดังนั้นข้อมูลบางอย่างจึงสามารถนำมาใช้ในการฝึกอบรมได้มากกว่าข้อมูลอื่นๆ

การตรวจสอบข้าม −:ทางเลือกอื่นนอกเหนือจากการสุ่มตัวอย่างย่อยแบบสุ่มคือการตรวจสอบข้าม ในวิธีนี้ ข้อมูลแต่ละรายการจะถูกใช้หลายครั้งสำหรับการฝึกอบรม และแม่นยำเพียงครั้งเดียวสำหรับการทดสอบ พิจารณาว่าสามารถแบ่งพาร์ติชั่นเร็กคอร์ดออกเป็นสองชุดย่อยที่มีขนาดเท่ากัน อันดับแรก สามารถเลือกชุดย่อยสำหรับการฝึกอบรมและอีกชุดสำหรับการทดสอบ สามารถเปลี่ยนบทบาทของชุดย่อยเพื่อให้ชุดการฝึกก่อนหน้านี้กลายเป็นชุดทดสอบ วิธีนี้เรียกว่าการตรวจสอบไขว้สองเท่า