Computer >> คอมพิวเตอร์ >  >> การเขียนโปรแกรม >> การเขียนโปรแกรม

การแยกวิเคราะห์ข้อมูลคืออะไร?


เทคนิคการแยกข้อมูลสามารถใช้เพื่อลดจำนวนค่าสำหรับแอตทริบิวต์ต่อเนื่องที่กำหนดโดยการแบ่งช่วงของแอตทริบิวต์เป็นช่วง ป้ายกำกับช่วงเวลาสามารถใช้เพื่อกู้คืนค่าข้อมูลจริงได้ มันสามารถกู้คืนค่าแอตทริบิวต์ต่อเนื่องได้หลายค่าโดยมีป้ายช่วงเวลาจำนวนน้อย ดังนั้นจึงลดและทำให้ข้อมูลเดิมง่ายขึ้น

สิ่งนี้นำไปสู่การแสดงผลลัพธ์การขุดในระดับความรู้ที่กระชับ ใช้งานง่าย เทคนิคการแยกประเภทสามารถจัดประเภทได้ขึ้นอยู่กับวิธีการนำการแยกย่อยไปใช้ เช่น การใช้ข้อมูลในชั้นเรียนหรือทิศทางที่ดำเนินการ (เช่น จากบนลงล่างกับจากล่างขึ้นบน) ถ้ากระบวนการ discretization ใช้ข้อมูล class ก็บอกได้ว่าเป็น supervised discretization ดังนั้นจึงไม่ได้รับการดูแล

หากกระบวนการเริ่มต้นด้วยการค้นพบจุดหนึ่งหรือสองสามจุด (เรียกว่าจุดแยกหรือจุดตัด) เพื่อแยกช่วงแอตทริบิวต์ทั้งหมด จากนั้นดำเนินการซ้ำในช่วงผลลัพธ์ จะเรียกว่าการแยกจากบนลงล่างหรือการแยกส่วน

ในการแยกย่อยจากล่างขึ้นบนหรือการรวม มันสามารถเริ่มต้นด้วยการพิจารณาค่าต่อเนื่องทั้งหมดเป็นจุดแยกที่อาจเกิดขึ้น ลบบางส่วนโดยการรวมค่าพื้นที่ใกล้เคียงเพื่อสร้างช่วงเวลา จากนั้นใช้กระบวนการนี้ซ้ำกับช่วงเวลาผลลัพธ์ การแยกย่อยสามารถนำมาใช้ซ้ำในแอตทริบิวต์เพื่อสนับสนุนการแบ่งพาร์ติชันค่าแอตทริบิวต์แบบลำดับชั้นหรือแบบหลายความละเอียด ซึ่งเรียกว่าลำดับชั้นของแนวคิด

ลำดับชั้นของแนวคิดมีประโยชน์สำหรับการขุดในหลายระดับของนามธรรม ลำดับชั้นแนวคิดสำหรับแอตทริบิวต์ตัวเลขที่กำหนดแสดงถึงการแยกแอตทริบิวต์ของแอตทริบิวต์ ลำดับชั้นของแนวคิดสามารถใช้เพื่อลดข้อมูลโดยการรวบรวมและกู้คืนแนวคิดระดับต่ำ (รวมถึงค่าตัวเลขสำหรับอายุแอตทริบิวต์) ด้วยแนวคิดระดับสูง (รวมถึงเยาวชน วัยกลางคน หรืออาวุโส) แม้ว่ารายละเอียดจะถูกซ่อนไว้โดยการวางนัยทั่วไปของข้อมูลดังกล่าว แต่ข้อมูลทั่วไปก็มีความหมายและดำเนินการได้ง่ายกว่า

สิ่งนี้ให้คำอธิบายที่สอดคล้องกันของผลลัพธ์การขุดข้อมูลระหว่างงานการขุดต่างๆ ซึ่งเป็นข้อกำหนดทั่วไป นอกจากนี้ การขุดบนชุดข้อมูลที่ลดขนาดยังต้องการการดำเนินการอินพุต/เอาท์พุตน้อยลง และสามารถมากกว่าการขุดบนชุดข้อมูลที่สูงกว่าและไม่ทั่วถึง เนื่องจากข้อดีเหล่านี้ เทคนิคการแยกส่วนและลำดับชั้นแนวคิดจึงมักถูกใช้ก่อนการทำเหมืองข้อมูลเป็นขั้นตอนก่อนการประมวลผล แทนที่จะใช้ในระหว่างการทำเหมือง

สามารถใช้วิธีการแยกย่อยได้หลายวิธีเพื่อสร้างหรือปรับแต่งลำดับชั้นแนวคิดแบบไดนามิกสำหรับแอตทริบิวต์ที่เป็นตัวเลข นอกจากนี้ ลำดับชั้นจำนวนมากสำหรับแอตทริบิวต์ตามหมวดหมู่มีนัยโดยนัยภายในการออกแบบฐานข้อมูล และสามารถแสดงโดยอัตโนมัติที่ระดับคำจำกัดความของสคีมา