Computer >> คอมพิวเตอร์ >  >> การเขียนโปรแกรม >> การเขียนโปรแกรม

การจัดประเภทข้อมูลคืออะไร?


การจัดประเภทเป็นวิธีการทำเหมืองข้อมูลที่ใช้ในการคาดการณ์สมาชิกทีมสำหรับอินสแตนซ์ข้อมูล เป็นขั้นตอนสองขั้นตอน ในขั้นตอนแรก โมเดลจะถูกสร้างขึ้นเพื่อกำหนดชุดข้อมูลหรือแนวทางที่กำหนดไว้ล่วงหน้า โมเดลนี้พัฒนาขึ้นโดยพิจารณาจาก tuples ฐานข้อมูลที่กำหนดโดยแอตทริบิวต์

ทูเพิลแต่ละตัวถือเป็นของคลาสที่กำหนดไว้ล่วงหน้า ตามที่กำหนดโดยหนึ่งในแอ็ตทริบิวต์ ที่เรียกว่าแอ็ตทริบิวต์เลเบลคลาส ในกรอบการจัดประเภท ทูเพิลข้อมูลยังถูกกำหนดให้เป็นตัวอย่าง ตัวอย่าง หรืออ็อบเจ็กต์ ทูเพิลข้อมูลวิเคราะห์เพื่อพัฒนาแบบจำลองร่วมกันจากชุดข้อมูลการฝึกอบรม ทูเพิลเดี่ยวที่สร้างชุดการฝึกถูกกำหนดให้เป็นตัวอย่างการฝึก และเลือกอย่างไม่เป็นทางการจากประชากรกลุ่มตัวอย่าง

เนื่องจากรองรับป้ายกำกับคลาสของตัวอย่างการฝึกอบรมแต่ละรายการ ขั้นตอนนี้จึงเรียกว่าการเรียนรู้ภายใต้การดูแล ในการเรียนรู้แบบไม่มีผู้ดูแล ซึ่งฉลากชั้นเรียนของตัวอย่างการฝึกอบรมจะไม่ระบุชื่อ และชั้นเรียนหลายชั้นที่จะเรียนรู้อาจไม่ทราบล่วงหน้า

แบบจำลองที่เรียนรู้ได้อธิบายไว้ในโครงสร้างของกฎการจำแนกประเภท แผนผังการตัดสินใจ หรือสูตรตัวเลข ตัวอย่างเช่น จากฐานข้อมูลของข้อมูลเครดิตผู้ใช้ กฎการจัดหมวดหมู่สามารถเรียนรู้เพื่อระบุผู้ใช้ว่ามีการจัดอันดับเครดิตที่ดีที่สุดหรือยุติธรรม กฎสามารถใช้เพื่อจัดประเภทตัวอย่างข้อมูลในอนาคต และสนับสนุนความเข้าใจที่ดีเกี่ยวกับเนื้อหาฐานข้อมูล

วิธีการระงับเป็นเทคนิคง่ายๆ ที่ใช้ชุดทดสอบของตัวอย่างที่มีป้ายกำกับในชั้นเรียน ตัวอย่างเหล่านี้สุ่มเลือกและเป็นอิสระจากตัวอย่างการฝึกอบรม ประสิทธิภาพของแบบจำลองในชุดทดสอบที่กำหนดคือเปอร์เซ็นต์ของตัวอย่างชุดทดสอบที่ถูกจำกัดโดยแบบจำลองอย่างเหมาะสม สำหรับตัวอย่างการทดสอบแต่ละรายการ ป้ายชื่อชั้นเรียนที่มีชื่อเสียงจะแยกความแตกต่างกับการคาดการณ์ชั้นเรียนของแบบจำลองที่เรียนรู้สำหรับกลุ่มตัวอย่างนั้น

หากการประเมินประสิทธิภาพของแบบจำลองขึ้นอยู่กับชุดข้อมูลการฝึกอบรม การประมาณนี้สามารถมองในแง่ดีได้ เนื่องจากแบบจำลองที่เรียนรู้แล้วมีอิทธิพลต่อข้อมูลมากเกินไป (กล่าวคือ สามารถรวมข้อมูลการฝึกอบรมที่มีความผิดปกติบางอย่างซึ่งไม่มีอยู่ในเนื้อหาทั้งหมด กลุ่มตัวอย่าง) ดังนั้นจึงใช้ชุดทดสอบ

  • การเรียนรู้ − ข้อมูลการฝึกอบรมจะถูกวิเคราะห์โดยอัลกอริธึมการจำแนกประเภท ดังนั้นแอตทริบิวต์ class label จึงเป็นการจัดอันดับเครดิต และรูปแบบที่เรียนรู้หรือตัวแยกประเภทได้อธิบายไว้ในโครงสร้างของกฎการจำแนกประเภท

  • การจำแนกประเภท − ข้อมูลการทดสอบใช้เพื่อวัดประสิทธิภาพของกฎการจำแนกประเภท หากประสิทธิภาพได้รับการปฏิบัติที่ยอมรับได้ กฎสามารถใช้กับการจัดประเภททูเพิลข้อมูลใหม่ได้