Computer >> คอมพิวเตอร์ >  >> การเขียนโปรแกรม >> การเขียนโปรแกรม

การจำแนกประเภททำงานอย่างไร


การจัดประเภทเป็นวิธีการทำเหมืองข้อมูลที่กำหนดองค์ประกอบให้กับชุดข้อมูลเพื่อช่วยในการคาดการณ์และการวิเคราะห์ที่มีประสิทธิภาพมากขึ้น โดยทั่วไปการจัดประเภทจะใช้เมื่อมีคลาสเป้าหมายสองคลาสที่เรียกว่าการจำแนกไบนารี

เมื่อสามารถทำนายได้สูงกว่าสองคลาส โดยเฉพาะอย่างยิ่งในปัญหาการรู้จำรูปแบบ นี่หมายถึงการจำแนกประเภทพหุนาม อย่างไรก็ตาม การจำแนกประเภทพหุนามสามารถใช้สำหรับข้อมูลการตอบสนองตามหมวดหมู่ ซึ่งจำเป็นต้องคาดการณ์ว่าหมวดหมู่ใดในบรรดาองค์ประกอบต่างๆ ที่มีความน่าจะเป็นมากที่สุด

การจัดประเภทข้อมูลเป็นขั้นตอนสองขั้นตอน ในระยะแรก ตัวแยกประเภทจะถูกสร้างขึ้นเพื่อกำหนดคอลเลกชั่นข้อมูลหรือแนวคิดที่กำหนดไว้ล่วงหน้า นี่คือขั้นตอนการเรียนรู้ (หรือขั้นตอนการฝึกอบรม) ซึ่งอัลกอริธึมการจำแนกประเภทจะพัฒนาตัวแยกประเภทโดยการวิเคราะห์หรือ "ทำความเข้าใจจาก" ชุดการฝึกอบรมที่สร้าง tuples ฐานข้อมูลและป้ายกำกับคลาสที่เกี่ยวข้อง

ทูเพิล X ถูกอธิบายโดยเวกเตอร์แอตทริบิวต์ n มิติ X =(x1 , x2 , … xn ) การกำหนด n การวัดที่สร้างบน tuple จาก n แอตทริบิวต์ฐานข้อมูล ตามลำดับ A1 ,A2 ,... An .

ทุกทูเพิล X ถูกจัดอยู่ในคลาสที่กำหนดไว้ล่วงหน้าตามที่ถูกกำหนดโดยแอททริบิวต์ฐานข้อมูลอื่นที่เรียกว่าแอททริบิวต์เลเบลคลาส แอตทริบิวต์ class label เป็นค่าที่ไม่ต่อเนื่องและไม่เรียงลำดับ เป็นหมวดหมู่ที่ทุกค่ากำหนดให้เป็นหมวดหมู่หรือคลาส

ทูเพิลเดี่ยวที่สร้างชุดการฝึกถูกกำหนดเป็น ทูเพิลการฝึกอบรม และเลือกจากฐานข้อมูลภายใต้การวิเคราะห์ ในกรอบการจัดประเภท ทูเพิลข้อมูลสามารถกำหนดเป็นตัวอย่าง อินสแตนซ์ จุดข้อมูล หรืออ็อบเจ็กต์

เนื่องจากรองรับป้ายกำกับคลาสของ tuple การฝึกทุกครั้ง ขั้นตอนนี้จึงเรียกว่าการเรียนรู้ภายใต้การดูแล สามารถเปรียบเทียบกับการเรียนรู้แบบไม่มีผู้ดูแล (หรือการจัดกลุ่ม) ซึ่งป้ายกำกับชั้นเรียนของ tuple การฝึกอบรมทุกครั้งไม่เป็นที่นิยม และไม่ทราบจำนวนหรือชุดของชั้นเรียนที่จะเข้าใจล่วงหน้า

ในระยะที่ 2 สามารถใช้โมเดลในการจำแนกประเภทได้ ขั้นแรกให้คาดการณ์ความแม่นยำในการทำนายของตัวแยกประเภท หากสามารถใช้ชุดการฝึกอบรมเพื่อคำนวณความถูกต้องของตัวแยกประเภท การประมาณนี้สามารถมองโลกในแง่ดีได้ เนื่องจากตัวแยกประเภทมีแนวโน้มที่จะเกินบันทึก (กล่าวคือ ในระหว่างการเรียนรู้ มันสามารถรวมความผิดปกติบางอย่างของบันทึกการฝึกอบรมที่ไม่มีอยู่ใน ชุดข้อมูลทั่วไปเสร็จสมบูรณ์)

ดังนั้นจึงใช้ชุดการทดสอบ สร้างสิ่งอันดับการทดสอบและป้ายกำกับคลาสที่เกี่ยวข้อง ทูเพิลเหล่านี้ถูกสุ่มเลือกจากชุดข้อมูลทั่วไป สิ่งเหล่านี้แยกจากสิ่งอันดับการฝึกอบรม โดยกำหนดว่าจะไม่ใช้เพื่อสร้างตัวแยกประเภท