Computer >> คอมพิวเตอร์ >  >> การเขียนโปรแกรม >> การเขียนโปรแกรม

เราจะค้นหาเซตย่อยที่ดีของแอตทริบิวต์ดั้งเดิมได้อย่างไร


การเลือกชุดย่อยของแอตทริบิวต์จะลดขนาดชุดข้อมูลโดยลบแอตทริบิวต์ (หรือมิติข้อมูล) ที่ไม่เกี่ยวข้องหรือซ้ำซ้อน วัตถุประสงค์ของการเลือกชุดย่อยของแอตทริบิวต์คือการค้นหาชุดแอตทริบิวต์ขั้นต่ำเพื่อให้การกระจายความน่าจะเป็นของคลาสข้อมูลในเวลาต่อมาใกล้เคียงกับการกระจายดั้งเดิมที่ได้รับโดยใช้แอตทริบิวต์ทั้งหมด

สำหรับแอตทริบิวต์ n รายการ มีชุดย่อยที่เป็นไปได้ 2n ชุด การค้นหาชุดย่อยของแอตทริบิวต์ที่เหมาะสมที่สุดอย่างละเอียดถี่ถ้วนอาจมีค่าใช้จ่ายสูง โดยเฉพาะอย่างยิ่งเมื่อ n และจำนวนของคลาสข้อมูลเพิ่มขึ้น ดังนั้น แนวทางฮิวริสติกที่สำรวจพื้นที่การค้นหาที่ลดลงจึงมักใช้สำหรับการเลือกชุดย่อยของแอตทริบิวต์

วิธีการเหล่านี้มักโลภมากในขณะที่ค้นหาผ่านช่องว่างของแอตทริบิวต์ พวกเขายังคงมองว่ามุมมองใดเป็นทางเลือกที่ดีในขณะนั้น วิธีการของพวกเขาคือการพัฒนาทางเลือกที่เหมาะสมที่สุดในท้องถิ่นโดยหวังว่าสิ่งนี้จะนำไปสู่ทางออกที่ดีที่สุดทั่วโลก เทคนิคที่โลภดังกล่าวมีประสิทธิภาพในทางปฏิบัติและใกล้เคียงกับการคำนวณวิธีแก้ปัญหาที่เหมาะสมที่สุด

โดยทั่วไปแอตทริบิวต์ที่ "ดีที่สุด" และ "แย่ที่สุด" จะตัดสินใจโดยใช้การทดสอบที่มีนัยสำคัญทางสถิติ ซึ่งพิจารณาว่าแอตทริบิวต์นั้นแยกจากกัน คุณสามารถใช้การวัดการประเมินแอตทริบิวต์ที่แตกต่างกันได้ ซึ่งรวมถึงการวัดการรับข้อมูลที่ใช้ในการสร้างแผนผังการตัดสินใจสำหรับการจำแนกประเภท

มีวิธีการฮิวริสติกพื้นฐานของการเลือกชุดย่อยของแอตทริบิวต์รวมถึงเทคนิคดังต่อไปนี้ -

การเลือกไปข้างหน้าแบบเป็นขั้นเป็นตอน − กระบวนการเริ่มต้นด้วยชุดแอตทริบิวต์ที่เป็นค่าว่างเป็นชุดที่ลดลง แอตทริบิวต์เริ่มต้นที่ดีที่สุดจะถูกตัดสินใจและแทรกลงในชุดที่ลดลง ในการทำซ้ำหรือขั้นตอนถัดไปทุกครั้ง คุณลักษณะเริ่มต้นที่เหลือจะถูกแทรกเข้าไปในชุด

การกำจัดถอยหลังแบบเป็นขั้นตอน − กระบวนการเริ่มต้นด้วยชุดคุณลักษณะที่สมบูรณ์ ในแต่ละเฟส จะกำจัดแอตทริบิวต์ที่แย่ที่สุดที่เหลืออยู่ในชุด

การผสมผสานระหว่างการเลือกการส่งต่อและการกำจัดย้อนหลัง − การเลือกไปข้างหน้าแบบเป็นขั้นตอนและเทคนิคการคัดออกด้านหลังสามารถผสมกันได้ เพื่อให้ในแต่ละเฟส กระบวนการเลือกแอตทริบิวต์ที่ดีที่สุดและกำจัดส่วนที่แย่ที่สุดออกจากระหว่างแอตทริบิวต์ที่เหลือ

การเหนี่ยวนำแผนผังการตัดสินใจ − อัลกอริธึมแผนผังการตัดสินใจ ซึ่งรวมถึง ID3, C4.5 และ CART ได้รับการออกแบบมาสำหรับการจำแนกประเภทในขั้นต้น การเหนี่ยวนำแผนผังการตัดสินใจสร้างโครงสร้างคล้ายผังงาน โดยแต่ละโหนดภายใน (ที่ไม่ใช่ใบไม้) หมายถึงการทดสอบแอตทริบิวต์ แต่ละสาขาสอดคล้องกับผลลัพธ์ของการทดสอบ และโหนดภายนอก (ใบไม้) แต่ละโหนดแสดงถึงการทำนายระดับ ในแต่ละโหนด อัลกอริทึมจะเลือกแอตทริบิวต์ "ดีที่สุด" เพื่อแบ่งข้อมูลออกเป็นคลาสเดียว

เมื่อใช้การเหนี่ยวนำแผนภูมิการตัดสินใจสำหรับการเลือกชุดย่อยของแอตทริบิวต์ ต้นไม้จะถูกสร้างขึ้นจากข้อมูลที่กำหนด คุณลักษณะทั้งหมดที่ไม่เกิดขึ้นในทรีถือว่าไม่เกี่ยวข้อง กลุ่มของแอตทริบิวต์ที่เกิดขึ้นในแผนภูมิจากชุดย่อยของแอตทริบิวต์ที่ลดลง