Computer >> คอมพิวเตอร์ >  >> การเขียนโปรแกรม >> การเขียนโปรแกรม

การจำแนกและการทำนายคืออะไร?


การจำแนกประเภท

การจัดประเภทเป็นวิธีการขุดข้อมูลที่ใช้ในการทำนายสมาชิกทีมสำหรับอินสแตนซ์ข้อมูล ในการจัดหมวดหมู่ มีตัวแปรตามหมวดหมู่เป้าหมาย รวมถึงวงเล็บรายได้ ตัวอย่างเช่น สามารถแบ่งออกเป็นสามกลุ่มหรือหมวดหมู่ เช่น รายได้สูง รายได้ปานกลาง และรายได้ต่ำ

โมเดลการทำเหมืองข้อมูลจะวิเคราะห์ชุดระเบียนขนาดใหญ่ แต่ละระเบียนรวมถึงข้อมูลเกี่ยวกับตัวแปรเป้าหมายและชุดของตัวแปรอินพุตหรือตัวทำนาย ตัวอย่างเช่น พิจารณาข้อความที่ตัดตอนมาจากชุดข้อมูลที่มีอยู่ในตาราง

ข้อความที่ตัดตอนมาจากชุดข้อมูลสำหรับการจำแนกรายได้

หัวเรื่อง อายุ เพศ อาชีพ วงเล็บรายได้
001 47 เพศหญิง วิศวกรซอฟต์แวร์ สูง
002 28 ชาย ที่ปรึกษา กลาง
003 35 ชาย ว่างงาน ต่ำ

สมมติว่าผู้วิจัยทำให้ชอบเพียงพอที่จะจัดกลุ่มรายได้ของบุคคลที่ไม่อยู่ในฐานข้อมูล ทั้งนี้ขึ้นอยู่กับลักษณะอื่นๆ ที่เกี่ยวข้องกับบุคคลนั้น รวมทั้งอายุ เพศ และอาชีพ งานนี้เป็นงานการจัดประเภท เหมาะอย่างยิ่งกับวิธีการและเทคนิคการทำเหมืองข้อมูล

อัลกอริทึมจะดำเนินการประมาณดังนี้ ขั้นแรก ให้พิจารณาชุดข้อมูลที่รวมทั้งตัวแปรทำนายและตัวแปรเป้าหมาย (จัดประเภทก่อนหน้านี้) วงเล็บรายได้

ในวิธีนี้ อัลกอริธึมจะเข้าใจว่าชุดค่าผสมของตัวแปรใดบ้างที่เกี่ยวข้องกับวงเล็บรายได้ ตัวอย่างเช่น ผู้หญิงที่มีอายุมากกว่าอาจเกี่ยวข้องกับกลุ่มที่มีรายได้สูง ชุดข้อมูลนี้เรียกว่าชุดการฝึก

ตัวอย่างของงานจำแนกประเภทในธุรกิจและการวิจัยเกี่ยวข้องกับ −

  • สามารถตัดสินได้ว่าธุรกรรมบัตรเครดิตบางรายการเป็นการฉ้อโกงหรือไม่

  • มันสามารถระบุตำแหน่งผู้สมัครใหม่ในแทร็กเฉพาะเกี่ยวกับข้อกำหนดบางอย่างได้

  • สามารถใช้ตรวจสอบว่าซอฟต์แวร์จำนองมีความเสี่ยงด้านเครดิตดีหรือไม่ดี

  • สามารถตรวจสอบได้ว่าเป็นโรคเฉพาะหรือไม่

  • โดยสามารถระบุได้ว่าพฤติกรรมทางการเงินหรือส่วนบุคคลบางอย่างบ่งบอกถึงภัยคุกคามของผู้ก่อการร้ายหรือไม่

การคาดการณ์

การคาดคะเนเหมือนกับการจัดประเภท ยกเว้นการคาดคะเน ผลลัพธ์จะถูกบิดเบือนในอนาคต

ตัวอย่างของงานการทำนายในธุรกิจและการวิจัยเกี่ยวข้องกับ -

  • สามารถทำนายมูลค่าหุ้นได้ในอีก 3 เดือนข้างหน้า

  • สามารถคาดการณ์เปอร์เซ็นต์การเสียชีวิตจากการจราจรที่เพิ่มขึ้นในปีหน้าได้หากเพิ่มขีดจำกัดความเร็ว

  • สามารถทำนายผู้ชนะการแข่งขันเบสบอล World Series ของฤดูใบไม้ร่วงนี้ได้ ขึ้นอยู่กับความคล้ายคลึงกันของสถิติทีม

  • โดยสามารถคาดการณ์ได้ว่าโมเลกุลเฉพาะในการค้นคว้ายาจะเริ่มต้นยาตัวใหม่ที่ทำกำไรให้กับองค์กรด้านเภสัชกรรมหรือไม่