Computer >> คอมพิวเตอร์ >  >> การเขียนโปรแกรม >> การเขียนโปรแกรม

มาตรการคัดเลือกแอตทริบิวต์คืออะไร?


การวัดการเลือกแอตทริบิวต์เป็นแบบฮิวริสติกสำหรับการเลือกการทดสอบการแยกที่ "ดีที่สุด" แยกพาร์ติชั่นข้อมูล D ที่กำหนดของ tupple การฝึกที่ติดป้ายกำกับคลาสออกเป็นคลาสเดียว

หากสามารถแบ่ง D เป็นพาร์ติชั่นขนาดเล็กลงตามผลลัพธ์ของเกณฑ์การแยก ทุกพาร์ติชั่นควรจะบริสุทธิ์ (เช่น ทูเพิลบางตัวที่อยู่ในพาร์ติชั่นที่กำหนดสามารถอยู่ในคลาสเดียวกันได้)

ตามแนวคิดแล้ว เกณฑ์การแยกที่ "ดีที่สุด" เป็นผลลัพธ์โดยประมาณมากที่สุดในวิธีการดังกล่าว การวัดการเลือกแอตทริบิวต์เรียกว่ากฎการแยก เพราะพวกเขาตัดสินใจว่าจะแบ่งสิ่งอันดับที่โหนดที่กำหนดอย่างไร

การวัดการเลือกแอตทริบิวต์สนับสนุนการจัดอันดับสำหรับทุกแอตทริบิวต์ที่กำหนดสิ่งอันดับการฝึกอบรมที่กำหนด แอตทริบิวต์ที่มีวิธีการที่ดีที่สุดสำหรับการวัดจะถูกเลือกเป็นแอตทริบิวต์การแยกสำหรับทูเพิลที่กำหนด

ถ้าแอ็ตทริบิวต์ splitting เป็นค่าคงที่หรือถ้าถูกจำกัดเฉพาะไบนารีทรี ดังนั้น จุดสปลิตหรือเซ็ตย่อยที่แตกแยกก็ควรถูกตัดสินว่าเป็นองค์ประกอบของเกณฑ์การแยกด้วย

โหนดทรีที่สร้างขึ้นสำหรับพาร์ติชั่น D มีป้ายกำกับตามเกณฑ์การแยก กิ่งจะเพิ่มขึ้นตามผลลัพธ์ของเกณฑ์แต่ละรายการ และทูเพิลจะถูกแยกตามนั้น มีการวัดการเลือกแอตทริบิวต์ที่มีชื่อเสียงสามแบบ ได้แก่ การรับข้อมูล อัตราขยาย และดัชนีจินี

ข้อมูลที่ได้รับ การรับข้อมูลจะใช้ในการตัดสินใจเลือกคุณลักษณะ/คุณลักษณะที่ดีที่สุดซึ่งแสดงข้อมูลสูงสุดเกี่ยวกับคลาส มันเป็นไปตามวิธีการเอนโทรปีในขณะที่มุ่งเป้าไปที่การลดระดับของเอนโทรปี เริ่มจากโหนดรูทไปยังโหนดลีฟ

ให้โหนด N กำหนดหรือถือ tuples ของพาร์ติชัน D แอตทริบิวต์ที่มีการรับข้อมูลมากที่สุดจะถูกเลือกเป็นแอตทริบิวต์การแยกสำหรับโหนด N คุณลักษณะนี้จะย่อข้อมูลที่จำเป็นเพื่อกำหนด tuples ในการแบ่งย่อยที่เป็นผลลัพธ์และสะท้อนถึงการสุ่มน้อยที่สุดหรือ " สิ่งเจือปน” ในส่วนย่อยเหล่านี้

อัตราส่วนกำไร − มาตรการรับข้อมูลมีความเอนเอียงเมื่อเข้าใกล้การทดสอบโดยมีผลหลายประการ สามารถเลือกแอตทริบิวต์ที่มีค่าจำนวนมากได้ ตัวอย่างเช่น พิจารณาแอตทริบิวต์ที่อำนวยความสะดวกเป็นตัวระบุที่ไม่ซ้ำกัน ซึ่งรวมถึงรหัสผลิตภัณฑ์

การแยกรหัสผลิตภัณฑ์อาจส่งผลให้มีพาร์ติชันจำนวนมาก โดยแต่ละพาร์ติชันมีทูเพิลเพียงตัวเดียว เนื่องจากแต่ละพาร์ติชั่นเป็นของแท้ ข้อมูลที่จำเป็นในการกำหนดชุดข้อมูล D ตามการแบ่งพาร์ติชั่นนี้จะเป็น Infoproduct_ID (D) =0.

ดัชนีจินี − ดัชนี Gini สามารถใช้ใน CART ดัชนี Gini คำนวณสิ่งเจือปนของ D พาร์ทิชันข้อมูลหรือคอลเล็กชันของ tuples การฝึกเป็น

$$\mathrm{Gini(D)=1-\displaystyle\sum\limits_{i=1}^m p_i^2}$$

โดยที่ pi คือความน่าจะเป็นที่ทูเพิลใน D เป็นของคลาส Ci และคำนวณโดย |Ci , |/|D|.