Computer >> คอมพิวเตอร์ >  >> การเขียนโปรแกรม >> การเขียนโปรแกรม

วิธีการพื้นฐานของการเลือกชุดย่อยของแอตทริบิวต์คืออะไร?


การเลือกชุดย่อยของแอตทริบิวต์จะลดขนาดชุดข้อมูลโดยกำจัดแอตทริบิวต์ (หรือมิติข้อมูล) ที่ไม่เกี่ยวข้องหรือซ้ำซ้อน การเลือกชุดย่อยของแอตทริบิวต์มีจุดมุ่งหมายเพื่อค้นหาชุดแอตทริบิวต์ขั้นต่ำ เพื่อให้การกระจายความน่าจะเป็นที่เป็นผลลัพธ์ของคลาสข้อมูลนั้นใกล้เคียงกับการแจกแจงดั้งเดิมที่เข้าถึงได้โดยใช้แอตทริบิวต์ทั้งหมด การทำเหมืองข้อมูลบนชุดแอตทริบิวต์ที่ลดลงมีประโยชน์เพิ่มเติม ช่วยลดแอตทริบิวต์ต่างๆ ที่เกิดขึ้นในรูปแบบที่ค้นพบ จัดเตรียมไว้เพื่อสร้างรูปแบบที่เข้าใจง่ายขึ้น

สำหรับแอตทริบิวต์ n จะมี 2 n ชุดย่อยที่เป็นไปได้ การค้นหาชุดย่อยที่เหมาะสมที่สุดของแอตทริบิวต์อย่างละเอียดถี่ถ้วนอาจมีราคาแพงมาก โดยเฉพาะอย่างยิ่งเมื่อ n และคลาสข้อมูลหลายชั้นเพิ่มขึ้น ดังนั้น วิธีฮิวริสติกที่สำรวจพื้นที่การค้นหาที่ลดลงจึงมักใช้สำหรับการเลือกชุดย่อยของแอตทริบิวต์

วิธีการเหล่านี้มักจะโลภในขณะที่ค้นหาผ่านช่องว่างแอตทริบิวต์ พวกเขามักจะสร้างสิ่งที่ดูเหมือนจะเป็นทางเลือกที่ดีกว่าในขณะนั้น กลยุทธ์ของพวกเขาคือการสร้างทางเลือกที่เหมาะสมที่สุดในท้องถิ่นโดยหวังว่าจะนำไปสู่การแก้ปัญหาที่เหมาะสมที่สุดทั่วโลก แนวทางที่โลภเช่นนี้มีประสิทธิภาพในทางปฏิบัติและสามารถประเมินวิธีแก้ปัญหาที่เหมาะสมได้ใกล้เคียงที่สุด

โดยทั่วไปแล้ว คุณลักษณะที่ดีที่สุดและแย่ที่สุดจะถูกกำหนดโดยใช้การทดสอบที่มีนัยสำคัญทางสถิติ ซึ่งพิจารณาว่าแอตทริบิวต์นั้นแยกจากกัน คุณสามารถใช้การวัดการประเมินแอตทริบิวต์อื่นๆ ได้ ซึ่งรวมถึงการวัดการรับข้อมูลที่ใช้ในการสร้างแผนผังการตัดสินใจสำหรับการจำแนกประเภท

มีวิธีการเลือกชุดย่อยของแอตทริบิวต์ดังต่อไปนี้ -

  • การเลือกไปข้างหน้าแบบเป็นขั้นเป็นตอน − กระบวนการเริ่มต้นด้วยชุดแอตทริบิวต์ที่เป็นค่าว่างเป็นชุดที่ลดลง แอตทริบิวต์ดั้งเดิมที่ดีที่สุดจะถูกกำหนดและเพิ่มไปยังชุดที่ลดลง ในการทำซ้ำหรือขั้นตอนที่ตามมาทุกครั้ง คุณลักษณะดั้งเดิมที่ดีที่สุดที่เหลืออยู่จะถูกแทรกเข้าไปในชุด

  • การกำจัดถอยหลังแบบเป็นขั้นตอน − ขั้นตอนเริ่มต้นด้วยชุดคุณลักษณะทั้งหมด ในแต่ละขั้นตอน จะลบแอตทริบิวต์ที่แย่ที่สุดที่เหลืออยู่ในชุด

  • การผสมผสานระหว่างการเลือกไปข้างหน้าและการกำจัดย้อนกลับ − สามารถเชื่อมโยงการเลือกไปข้างหน้าแบบทีละขั้นตอนและการกำจัดย้อนกลับ เพื่อให้ในแต่ละขั้นตอน กระบวนการเลือกแอตทริบิวต์ที่ดีที่สุดและกำจัดสิ่งที่แย่ที่สุดออกจากแอตทริบิวต์ที่เหลือ

  • การเหนี่ยวนำแผนผังการตัดสินใจ − อัลกอริธึมแผนผังการตัดสินใจซึ่งรวมถึง ID3, C4.5 และ CART ได้รับการออกแบบมาสำหรับการจำแนกประเภท การเหนี่ยวนำแผนผังการตัดสินใจสร้างโครงสร้างคล้ายผังงาน โดยแต่ละโหนดภายใน (ที่ไม่ใช่ใบไม้) หมายถึงการทดสอบแอตทริบิวต์ แต่ละสาขาสอดคล้องกับผลลัพธ์ของการทดสอบ และโหนดภายนอก (ใบไม้) แต่ละโหนดแสดงถึงการทำนายระดับ ในแต่ละโหนด อัลกอริทึมจะเลือกแอตทริบิวต์ "ดีที่สุด" เพื่อแบ่งข้อมูลออกเป็นแต่ละคลาส