Computer >> คอมพิวเตอร์ >  >> การเขียนโปรแกรม >> การเขียนโปรแกรม

เทคนิค Discretization และ Concept Hierarchy Generation สำหรับข้อมูลเชิงตัวเลขมีอะไรบ้าง?


การกำหนดลำดับชั้นแนวคิดสำหรับแอตทริบิวต์ที่เป็นตัวเลขนั้นซับซ้อนและลำบาก เนื่องจากช่วงข้อมูลที่ใช้ได้หลากหลายและการอัพเดทค่าข้อมูลบ่อยครั้ง มีวิธีการต่างๆ ในการสร้างลำดับชั้นแนวคิดสำหรับข้อมูลตัวเลขดังนี้ −

ถังเก็บ − Binning เป็นเทคนิคการแยกจากบนลงล่างตามจำนวนถังขยะที่กำหนดไว้ วิธีการเหล่านี้ยังใช้เป็นวิธีการแยกส่วนสำหรับการลดจำนวนและการสร้างลำดับชั้นแนวคิด เทคนิคเหล่านี้สามารถใช้ซ้ำกับพาร์ติชันที่เป็นผลลัพธ์เพื่อสร้างลำดับชั้นของแนวคิด Binning ไม่ได้ใช้ข้อมูลคลาส ดังนั้นจึงเป็นเทคนิคการแยกส่วนที่ไม่มีผู้ดูแล มีความอ่อนไหวต่อจำนวนถังขยะที่ผู้ใช้ระบุและการมีอยู่ของค่าผิดปกติ

การวิเคราะห์ฮิสโตแกรม − เช่นเดียวกับ binning การวิเคราะห์ฮิสโตแกรมเป็นเทคนิคการแยกส่วนแบบไม่มีผู้ดูแลเพราะไม่ได้ใช้ข้อมูลคลาส ฮิสโตแกรมแบ่งค่าสำหรับแอตทริบิวต์ A ออกเป็นช่วงที่ไม่ปะติดปะต่อกันที่เรียกว่าบัคเก็ต ตัวอย่างเช่น ในฮิสโตแกรมที่มีความกว้างเท่ากัน ค่าต่างๆ จะถูกแบ่งเป็นพาร์ติชั่นหรือช่วงที่มีขนาดเท่ากันสำหรับราคา โดยที่ถังแต่ละอันมีความกว้าง $10) ด้วยฮิสโตแกรมความถี่ที่เท่ากัน ค่าต่างๆ จะถูกแบ่งพาร์ติชั่นเพื่อให้แต่ละพาร์ติชั่นมีจำนวนทูเพิลข้อมูลเท่ากัน

อัลกอริธึมการวิเคราะห์ฮิสโตแกรมสามารถนำมาใช้ซ้ำกับแต่ละพาร์ติชั่นเพื่อสร้างลำดับชั้นแนวคิดหลายระดับโดยอัตโนมัติ โดยขั้นตอนจะสิ้นสุดลงเมื่อถึงระดับแนวคิดที่กำหนดไว้ล่วงหน้าแล้ว

ขนาดช่วงต่ำสุดยังสามารถใช้ต่อระดับเพื่อควบคุมขั้นตอนแบบเรียกซ้ำ ระบุความกว้างขั้นต่ำของพาร์ติชันหรือจำนวนค่าต่ำสุดสำหรับแต่ละพาร์ติชันในแต่ละระดับ

การแบ่งแยกตามเอนโทรปี − โดยทั่วไปแล้วเอนโทรปีจะใช้มาตรการที่ไม่ต่อเนื่องกัน เป็นครั้งแรกโดย Claude Shannon ในงานบุกเบิกทฤษฎีสารสนเทศและแนวคิดเรื่องการรับข้อมูล

การแยกย่อยตามเอนโทรปีเป็นเทคนิคการแยกจากบนลงล่างภายใต้การดูแล สำรวจข้อมูลการกระจายคลาสในการคำนวณและการกำหนดจุดแยก (ค่าข้อมูลสำหรับการแบ่งช่วงแอตทริบิวต์)

การวิเคราะห์คลัสเตอร์ − การวิเคราะห์คลัสเตอร์เป็นวิธีการแยกข้อมูลที่เป็นที่นิยม อัลกอริทึมการจัดกลุ่มสามารถนำมาใช้เพื่อแยกแอตทริบิวต์ที่เป็นตัวเลข A โดยแบ่งค่าของ A ออกเป็นคลัสเตอร์หรือกลุ่ม

การทำคลัสเตอร์จะพิจารณาการกระจายของ A เช่นเดียวกับความใกล้ชิดของจุดข้อมูล ดังนั้นจึงสามารถสร้างผลลัพธ์การแยกส่วนคุณภาพสูงได้ การทำคลัสเตอร์สามารถใช้เพื่อสร้างลำดับชั้นแนวคิดสำหรับ A โดยทำตามกลยุทธ์การแยกจากบนลงล่างหรือกลยุทธ์การรวมจากล่างขึ้นบน โดยที่แต่ละคลัสเตอร์จะสร้างโหนดของลำดับชั้นแนวคิด