Computer >> คอมพิวเตอร์ >  >> การเขียนโปรแกรม >> การเขียนโปรแกรม

อะไรคือแนวทางของการแยกส่วนโดยไม่ได้รับการดูแล?


แอตทริบิวต์จะไม่ต่อเนื่องกันหากมีค่าที่เป็นไปได้จำนวนน้อย (จำกัด) ที่เชื่อมโยงกัน ในขณะที่แอตทริบิวต์แบบต่อเนื่องจะถือว่ามีค่าที่เป็นไปได้จำนวนมาก (ไม่จำกัด)

กล่าวอีกนัยหนึ่ง แอตทริบิวต์ข้อมูลที่ไม่ต่อเนื่องสามารถดูได้ว่าเป็นฟังก์ชันที่มีช่วงเป็นกลุ่มจำกัด ในขณะที่แอตทริบิวต์ข้อมูลแบบต่อเนื่องเป็นฟังก์ชันที่มีช่วงเป็นกลุ่มที่มีการจัดลำดับโดยสมบูรณ์เป็นอนันต์ โดยทั่วไปจะเป็นช่วงเวลา

Discretization มีจุดมุ่งหมายเพื่อลดจำนวนค่าที่เป็นไปได้ที่แอตทริบิวต์แบบต่อเนื่องใช้โดยการแบ่งพาร์ติชั่นออกเป็นหลายช่วง มีสองวิธีในการแก้ปัญหาการแยกย่อย หนึ่งคือการหาปริมาณทุกแอตทริบิวต์ในกรณีที่ไม่มีความรู้เกี่ยวกับคลาสของอินสแตนซ์ในคลาสการฝึกอบรมที่เรียกว่า discretization โดยไม่ได้รับการดูแล

ประการที่สองคือการสร้างชั้นเรียนในบัญชีเมื่อแยกการแยกย่อยภายใต้การดูแล วิธีแรกคือความเป็นไปได้เพียงอย่างเดียวในการจัดการกับปัญหาการจัดกลุ่มโดยที่คลาสไม่เป็นที่ทราบหรือไม่มีอยู่จริง

วิธีที่ชัดเจนในการแยกแยะแอตทริบิวต์ที่เป็นตัวเลขคือการแบ่งช่วงเป็นจำนวนช่วงเท่ากันที่กำหนดไว้ล่วงหน้า:ปทัฏฐานคงที่และไม่ขึ้นกับข้อมูล โดยทั่วไปแล้วจะเสร็จสิ้นในเวลาที่มีการรวบรวมข้อมูล

ในวิธีการแยกย่อยแบบไม่มีผู้ดูแล จะทำให้เกิดอันตรายจากการทำลายความแตกต่างที่อาจเป็นประโยชน์ในขั้นตอนการเรียนรู้โดยใช้การไล่ระดับที่หยาบคายเกินไป หรือโดยทางเลือกของขอบเขตที่ไม่พึงประสงค์ จะรวมหลายอินสแตนซ์ของหลายคลาสเข้าด้วยกันโดยไม่จำเป็น .

Binning ที่มีความกว้างเท่ากันมักจะกระจายอินสแตนซ์อย่างขาดๆ หายๆ − ถังขยะบางอันรวมหลายอินสแตนซ์ในขณะที่บางถังขยะรวมไม่มี สิ่งนี้สามารถบั่นทอนความสามารถของแอตทริบิวต์เพื่อช่วยสร้างโครงสร้างการตัดสินใจที่ดีได้อย่างจริงจัง เป็นการดีกว่าที่จะเปิดใช้ช่วงเวลาที่มีหลายขนาด โดยเลือกช่วงเวลาดังกล่าวเพื่อให้ตัวอย่างการฝึกจำนวนเท่ากันในแต่ละช่วง

วิธีนี้เรียกว่า binning ความถี่เท่ากัน โดยแบ่งช่วงของแอตทริบิวต์ออกเป็นช่องเก็บหลายช่องที่กำหนดไว้ล่วงหน้าตามการกระจายของอินสแตนซ์ตามแกนนั้น ซึ่งบางครั้งเรียกว่าการปรับสมดุลฮิสโตแกรม เพราะหากใช้ฮิสโตแกรมของข้อความในถังขยะที่ได้ ก็จะเป็นบ่อยครั้ง แบน. หากสามารถเห็นถังขยะหลายถังเป็นทรัพยากร วิธีนี้จะช่วยพัฒนาให้เกิดประโยชน์สูงสุด

คลาสของอินสแตนซ์ที่ Binning ความถี่เท่ากันนั้นชัดเจน และสิ่งนี้สามารถสร้างขอบเขตที่ไม่ดีได้ ตัวอย่างเช่น หากบางอินสแตนซ์ในถังขยะมีหนึ่งคลาส และบางอินสแตนซ์ในถังขยะที่ใหญ่กว่าถัดไปมีอีกอินสแตนซ์หนึ่ง ยกเว้นอินสแตนซ์แรกซึ่งมีคลาสเริ่มต้น แน่นอนว่ามันสมเหตุสมผลที่จะเคารพการแบ่งคลาสและมีอินสแตนซ์แรกนั้นใน ก่อนหน้านี้ เสียสละคุณสมบัติความถี่เดียวกันเพื่อประโยชน์ของความเป็นเนื้อเดียวกัน