Computer >> คอมพิวเตอร์ >  >> การเขียนโปรแกรม >> การเขียนโปรแกรม

Entropy-Based Discretization คืออะไร?


การแยกย่อยตามเอนโทรปีเป็นวิธีการแยกจากบนลงล่างภายใต้การดูแล สำรวจข้อมูลการกระจายคลาสในการคำนวณและการเก็บรักษาจุดแยก (ค่าข้อมูลสำหรับการแยกช่วงแอตทริบิวต์) แยกแอตทริบิวต์ทางสถิติ A วิธีเลือกค่าของ A ที่มีเอนโทรปีต่ำสุดเป็นจุดแยก และแบ่งช่วงผลลัพธ์ซ้ำๆ เพื่อให้ปรากฏเป็นลำดับชั้น

การแยกย่อยเฉพาะสร้างลำดับชั้นแนวคิดสำหรับ A ให้ D รวมข้อมูล tuples ที่อธิบายโดยกลุ่มของแอตทริบิวต์และแอตทริบิวต์ class-label แอตทริบิวต์ class-label รองรับข้อมูลคลาสต่อ tuple วิธีการพื้นฐานสำหรับการแยกย่อยตามเอนโทรปีของแอตทริบิวต์ A ภายในชุดมีดังนี้ -

แต่ละค่าของ A สามารถถือเป็นขอบเขตของช่วงที่เป็นไปได้หรือจุดแยก (จุดแยกที่ระบุ) เพื่อแบ่งพื้นที่ของ A นั่นคือ จุดแยกสำหรับ A สามารถแบ่งสิ่งอันดับใน D ออกเป็นสองชุดย่อยที่เป็นไปตามเงื่อนไข A ≤ จุดแยก และ A> จุดแยก ตามลำดับ ทำให้เกิดการแยกย่อยแบบไบนารี

การแยกย่อยแบบอิงเอนโทรปีใช้ข้อมูลเกี่ยวกับคลาสเลเบลของทูเพิล มันสามารถกำหนดสัญชาตญาณตามการแยกย่อยตามเอนโทรปี มันควรจะเหลือบไปที่การจำแนกประเภท สมมติว่าจำเป็นต้องกำหนด tuples ใน D โดยการแบ่งพาร์ติชันบนแอตทริบิวต์ A และจุดแยกบางส่วน

ตัวอย่างเช่น ถ้าเรามีสองคลาส ก็หวังว่า tuples บางตัวของ class C1 จะลดลงเป็นพาร์ติชั่นเดียว และ tuple ของคลาส C2 บางตัวจะลดลงไปอีกพาร์ติชั่น แต่นี่ไม่น่าเป็นไปได้ ตัวอย่างเช่น พาร์ติชั่นแรกสามารถมี tupple ของ C1 ได้หลายตัว แต่รวมถึง C2 บางส่วนด้วย จำนวนนี้เรียกว่าข้อกำหนดข้อมูลที่คาดหวังสำหรับการกำหนดทูเพิลใน D ตามการแบ่งพาร์ติชั่นโดย A ซึ่งกำหนดโดย

$$\mathrm{Info_A(D)\:=\:\frac{\mid\:D_1\:\mid}{\mid\:D\:\mid}Entrophy(D_1)\:+\:\frac{ \mid\:D_2\:\mid}{\mid\:D\:\mid}Entrophy(D_2)}$$

โดยที่ D1 และ D2 สอดคล้องกับ tuples ใน D รีเฟรชเงื่อนไข A ≤ split point และ A> split point ตามลำดับ; |D| คือจำนวน tuples ใน D เป็นต้น บริการเอนโทรปีสำหรับชุดที่กำหนดจะถูกคำนวณตามการแจกแจงคลาสของ tuples ในชุด

ตัวอย่างเช่น เมื่อกำหนด m คลาส C1, C2... Cm เอนโทรปีของ D1 คือ

$$\mathrm{Entrophy(D_1)}\:=\:-\displaystyle\sum\limits_{i=1}^m P_i{\log_{2}(P_i)}$$

ขั้นตอนของการตัดสินใจแยกจุดแยกถูกใช้ซ้ำกับแต่ละพาร์ติชั่นที่ได้มา จนกว่าจะตรงตามเกณฑ์การหยุด ซึ่งรวมถึงเมื่อความต้องการข้อมูลขั้นต่ำในจุดแยกของนักเรียนทั้งหมดน้อยกว่าเกณฑ์ขนาดเล็ก ε หรือเมื่อทวีคูณสูงกว่า กว่าเกณฑ์ max_interval