Computer >> คอมพิวเตอร์ >  >> การเขียนโปรแกรม >> การเขียนโปรแกรม

ประเด็นต่างๆ เกี่ยวกับการจำแนกและการทำนายในการทำเหมืองข้อมูลมีอะไรบ้าง


มีขั้นตอนก่อนการประมวลผลต่อไปนี้ที่สามารถใช้กับข้อมูลเพื่ออำนวยความสะดวกในการเพิ่มความถูกต้อง ประสิทธิภาพ และความสามารถในการปรับขนาดของเฟสการจัดหมวดหมู่หรือการคาดการณ์ได้ดังนี้ -

  • การล้างข้อมูล − สิ่งนี้กำหนดการประมวลผลล่วงหน้าของข้อมูลเพื่อกำจัดหรือลดสัญญาณรบกวนโดยใช้วิธีการปรับให้เรียบและการทำงานของค่าที่หายไป (เช่น โดยการคืนค่าที่หายไปด้วยค่าที่ปรากฏโดยทั่วไปมากที่สุดสำหรับแอตทริบิวต์นั้น หรือด้วยค่าที่น่าจะเป็นที่ดีที่สุด สถิติ). แม้ว่าอัลกอริธึมการจำแนกประเภทต่างๆ จะมีโครงสร้างบางอย่างสำหรับจัดการข้อมูลที่มีเสียงดังหรือขาดหายไป แต่ขั้นตอนนี้ช่วยลดความสับสนระหว่างการเรียนรู้ได้

  • การวิเคราะห์ความเกี่ยวข้อง − มีคุณลักษณะหลายอย่างในข้อมูลที่ไม่เกี่ยวข้องกับงานการจำแนกประเภทหรือการทำนาย ตัวอย่างเช่น การบันทึกข้อมูลในวันในสัปดาห์ที่มีการกรอกซอฟต์แวร์สินเชื่อธนาคารนั้นไม่น่าจะเกี่ยวข้องกับความสำเร็จของซอฟต์แวร์ นอกจากนี้ คุณลักษณะบางอย่างอาจซ้ำซ้อนได้

    ดังนั้น การวิเคราะห์ความเกี่ยวข้องสามารถนำไปใช้กับข้อมูลเพื่อลบแอตทริบิวต์ที่ไม่เกี่ยวข้องหรือซ้ำซ้อนออกจากขั้นตอนการเรียนรู้ ในการเรียนรู้ของเครื่อง ขั้นตอนนี้เรียกว่าการเลือกคุณสมบัติ มีคุณลักษณะดังกล่าวที่อาจช้าลงและอาจทำให้ขั้นตอนการเรียนรู้เข้าใจผิด

    ถูกต้อง เวลาที่ใช้ในการวิเคราะห์ความเกี่ยวข้อง เมื่อใส่เข้ากับเวลาที่ใช้ในการเรียนรู้จากชุดย่อยของคุณลักษณะ "ที่ลดลง" ที่เป็นผลลัพธ์ และต้องน้อยกว่าเวลาที่จะใช้ในการเรียนรู้จากชุดคุณลักษณะเริ่มต้น ดังนั้น การวิเคราะห์ดังกล่าวสามารถช่วยเพิ่มประสิทธิภาพการจัดหมวดหมู่และความสามารถในการปรับขนาดได้

  • การแปลงข้อมูล − ข้อมูลสามารถสรุปเป็นแนวทางในระดับที่ใหญ่กว่าได้ ลำดับชั้นของแนวคิดสามารถใช้สำหรับเป้าหมายเหล่านี้ ซึ่งจะเป็นประโยชน์อย่างยิ่งสำหรับแอตทริบิวต์ที่มีค่าต่อเนื่อง ตัวอย่างเช่น ค่าทางคณิตศาสตร์สำหรับรายได้แอตทริบิวต์สามารถสรุปให้เป็นฟิลด์ที่ไม่ต่อเนื่องได้ ซึ่งรวมถึง ต่ำ กลาง และสูง ในทำนองเดียวกัน คุณลักษณะที่มีมูลค่าเล็กน้อย เช่น ถนน สามารถทำให้เป็นแนวคิดทั่วไปในระดับที่ใหญ่กว่าได้ เช่น เมือง

    เนื่องจากลักษณะทั่วไปทำให้ข้อมูลการฝึกเริ่มต้นสั้นลง จึงสามารถรวมการดำเนินการอินพุต/เอาท์พุตน้อยลงระหว่างการเรียนรู้ได้ ข้อมูลสามารถทำให้เป็นมาตรฐานได้เช่นกัน โดยเฉพาะอย่างยิ่งเมื่อใช้โครงข่ายประสาทเทียมหรือเทคนิคที่มีการวัดระยะทางในขั้นตอนการเรียนรู้

    การทำให้เป็นมาตรฐานรวมถึงการปรับขนาดทั้งหมดสำหรับแอตทริบิวต์ที่กำหนดเพื่อให้ลดลงภายในพื้นที่ที่ระบุขนาดเล็ก รวมทั้ง -1.0 ถึง 1.0 หรือ 0 ถึง 1.0 ในแนวทางเหล่านี้ที่ใช้การวัดระยะทาง เช่น สามารถหลีกเลี่ยงแอตทริบิวต์ที่มีช่วงเริ่มต้นสูง (เช่น รายได้) จาก