Computer >> คอมพิวเตอร์ >  >> การเขียนโปรแกรม >> การเขียนโปรแกรม

แบบจำลองที่ได้รับนำเสนอในการทำเหมืองข้อมูลเป็นอย่างไร?


การจัดประเภทเป็นขั้นตอนในการค้นหาโมเดลที่กำหนดและจัดหมวดหมู่คลาสข้อมูลหรือแนวคิด โมเดลนี้อิงตามการค้นหาชุดข้อมูลการฝึก (เช่น วัตถุข้อมูลที่มีชื่อเสียงของป้ายกำกับคลาส) โมเดลสามารถทำนายคลาสเลเบลของอ็อบเจกต์ที่เลเบลคลาสไม่ระบุชื่อ

โมเดลที่ได้รับสามารถแสดงได้หลายรูปแบบ รวมถึงกฎการจำแนกประเภท (เช่น กฎ IF-THEN) แผนผังการตัดสินใจ สูตรตัวเลข หรือโครงข่ายประสาทเทียม โครงสร้างการตัดสินใจเป็นสถาปัตยกรรมแบบแผนผังลำดับงาน ซึ่งแต่ละโหนดระบุการทดสอบค่าแอตทริบิวต์ แต่ละสาขาจะกำหนดผลลัพธ์ของการทดสอบ และใบต้นไม้อธิบายคลาสหรือการแจกแจงคลาส

แผนผังการตัดสินใจสามารถเปลี่ยนเป็นกฎการจัดหมวดหมู่ได้ โครงข่ายประสาทเทียม เมื่อใช้สำหรับการจำแนกประเภท โดยทั่วไปคือชุดของหน่วยประมวลผลแบบเซลล์ประสาทที่มีการเชื่อมต่อแบบถ่วงน้ำหนักระหว่างหน่วยต่างๆ มีหลายวิธีในการสร้างแบบจำลองการจำแนกประเภท รวมถึงการจำแนกแบบไร้เดียงสาแบบเบเซียน เครื่องเวกเตอร์สนับสนุน และการจำแนกประเภทใกล้เคียง k ที่ใกล้ที่สุด

การจำแนกประเภทการคาดการณ์ตามหมวดหมู่ (ไม่ต่อเนื่อง, ไม่เรียงลำดับ) ป้ายกำกับ, ฟังก์ชันค่าต่อเนื่องของแบบจำลองการถดถอย การถดถอยสามารถคาดการณ์ค่าข้อมูลสถิติที่ขาดหายไปหรือไม่พร้อมใช้งานแทนป้ายกำกับคลาส (ไม่ต่อเนื่อง)

การคาดคะเนกำหนดทั้งการทำนายตัวเลขและการทำนายป้ายกำกับคลาส การวิเคราะห์การถดถอยเป็นวิธีการทางสถิติที่ใช้สำหรับการทำนายตัวเลข แม้ว่าจะมีเทคนิคหลายอย่างเช่นกัน การถดถอยยังล้อมรอบการระบุแนวโน้มการกระจายขึ้นอยู่กับข้อมูลที่มี

การจัดประเภทและการถดถอยอาจต้องนำหน้าด้วยการวิเคราะห์ความเกี่ยวข้อง ซึ่งพยายามรับรู้คุณลักษณะที่นำไปใช้อย่างมีนัยสำคัญกับกระบวนการจัดหมวดหมู่และการถดถอย แอตทริบิวต์ดังกล่าวจะถูกเลือกสำหรับกระบวนการจัดหมวดหมู่และการถดถอย มีคุณลักษณะหลายอย่างที่ไม่เกี่ยวข้องกัน โดยไม่ได้รับอนุญาตจากการพิจารณา

สมมติว่าในฐานะผู้จัดการฝ่ายขายของ AllElectronics จำเป็นต้องกำหนดชุดสินค้าจำนวนมากในร้านค้า โดยพิจารณาจากการตอบสนองสามประเภทต่อแคมเปญการขาย เช่น การตอบรับที่ดี การตอบรับเล็กน้อย และการไม่ตอบสนอง

สามารถสร้างแบบจำลองสำหรับแต่ละคลาสทั้งสามนี้โดยพิจารณาจากคุณสมบัติการอธิบายของไอเท็ม ซึ่งรวมถึงราคา แบรนด์ สถานที่ทำ ประเภท และหมวดหมู่ การจัดหมวดหมู่ที่ได้ควรวิเคราะห์แต่ละคลาสจากคลาสอื่นให้มากที่สุด โดยนำเสนอภาพที่เป็นระเบียบของชุดข้อมูล

โครงสร้างการตัดสินใจสามารถระบุราคาว่าเป็นปัจจัยส่วนบุคคลที่แยกความแตกต่างของทั้งสามกลุ่มได้ดีที่สุด ต้นไม้สามารถเปิดเผยว่าราคา คุณลักษณะอื่น ๆ ที่สนับสนุนเพื่อแยกความแตกต่างของวัตถุแต่ละชั้นจากที่อื่นประกอบด้วยตราสินค้าและสถานที่ทำ โครงสร้างการตัดสินใจดังกล่าวช่วยให้เราเรียนรู้ผลกระทบของแคมเปญการขายที่กำหนดและออกแบบแคมเปญที่มีประสิทธิภาพมากขึ้นในอนาคต