การจำแนกประเภท
การจัดประเภทเป็นวิธีการขุดข้อมูลที่ใช้ในการทำนายสมาชิกทีมสำหรับอินสแตนซ์ข้อมูล ในการจัดหมวดหมู่ มีตัวแปรตามหมวดหมู่เป้าหมาย รวมถึงวงเล็บรายได้ ตัวอย่างเช่น สามารถแบ่งออกเป็นสามกลุ่มหรือหมวดหมู่ เช่น รายได้สูง รายได้ปานกลาง และรายได้ต่ำ
โมเดลการทำเหมืองข้อมูลจะวิเคราะห์ชุดระเบียนขนาดใหญ่ แต่ละระเบียนรวมถึงข้อมูลเกี่ยวกับตัวแปรเป้าหมายและชุดของตัวแปรอินพุตหรือตัวทำนาย ตัวอย่างเช่น พิจารณาข้อความที่ตัดตอนมาจากชุดข้อมูลที่มีอยู่ในตาราง
ข้อความที่ตัดตอนมาจากชุดข้อมูลสำหรับการจำแนกรายได้
หัวเรื่อง | อายุ | เพศ | อาชีพ | วงเล็บรายได้ |
---|---|---|---|---|
001 | 47 | เพศหญิง | วิศวกรซอฟต์แวร์ | สูง |
002 | 28 | ชาย | ที่ปรึกษา | กลาง |
003 | 35 | ชาย | ว่างงาน | ต่ำ |
สมมติว่าผู้วิจัยทำให้ชอบเพียงพอที่จะจัดกลุ่มรายได้ของบุคคลที่ไม่อยู่ในฐานข้อมูล ทั้งนี้ขึ้นอยู่กับลักษณะอื่นๆ ที่เกี่ยวข้องกับบุคคลนั้น รวมทั้งอายุ เพศ และอาชีพ งานนี้เป็นงานการจัดประเภท เหมาะอย่างยิ่งกับวิธีการและเทคนิคการทำเหมืองข้อมูล
อัลกอริทึมจะดำเนินการประมาณดังนี้ ขั้นแรก ให้พิจารณาชุดข้อมูลที่รวมทั้งตัวแปรทำนายและตัวแปรเป้าหมาย (จัดประเภทก่อนหน้านี้) วงเล็บรายได้
ในวิธีนี้ อัลกอริธึมจะเข้าใจว่าชุดค่าผสมของตัวแปรใดบ้างที่เกี่ยวข้องกับวงเล็บรายได้ ตัวอย่างเช่น ผู้หญิงที่มีอายุมากกว่าอาจเกี่ยวข้องกับกลุ่มที่มีรายได้สูง ชุดข้อมูลนี้เรียกว่าชุดการฝึก
ตัวอย่างของงานจำแนกประเภทในธุรกิจและการวิจัยเกี่ยวข้องกับ −
-
สามารถตัดสินได้ว่าธุรกรรมบัตรเครดิตบางรายการเป็นการฉ้อโกงหรือไม่
-
มันสามารถระบุตำแหน่งผู้สมัครใหม่ในแทร็กเฉพาะเกี่ยวกับข้อกำหนดบางอย่างได้
-
สามารถใช้ตรวจสอบว่าซอฟต์แวร์จำนองมีความเสี่ยงด้านเครดิตดีหรือไม่ดี
-
สามารถตรวจสอบได้ว่าเป็นโรคเฉพาะหรือไม่
-
โดยสามารถระบุได้ว่าพฤติกรรมทางการเงินหรือส่วนบุคคลบางอย่างบ่งบอกถึงภัยคุกคามของผู้ก่อการร้ายหรือไม่
การคาดการณ์
การคาดคะเนเหมือนกับการจัดประเภท ยกเว้นการคาดคะเน ผลลัพธ์จะถูกบิดเบือนในอนาคต
ตัวอย่างของงานการทำนายในธุรกิจและการวิจัยเกี่ยวข้องกับ -
-
สามารถทำนายมูลค่าหุ้นได้ในอีก 3 เดือนข้างหน้า
-
สามารถคาดการณ์เปอร์เซ็นต์การเสียชีวิตจากการจราจรที่เพิ่มขึ้นในปีหน้าได้หากเพิ่มขีดจำกัดความเร็ว
-
สามารถทำนายผู้ชนะการแข่งขันเบสบอล World Series ของฤดูใบไม้ร่วงนี้ได้ ขึ้นอยู่กับความคล้ายคลึงกันของสถิติทีม
-
โดยสามารถคาดการณ์ได้ว่าโมเลกุลเฉพาะในการค้นคว้ายาจะเริ่มต้นยาตัวใหม่ที่ทำกำไรให้กับองค์กรด้านเภสัชกรรมหรือไม่