Computer >> คอมพิวเตอร์ >  >> การเขียนโปรแกรม >> การเขียนโปรแกรม

เราจะขุดชุดรายการที่ปิดบ่อยได้อย่างไร?


ในแนวทางที่ไร้เดียงสา มันสามารถขุดชุดไอเท็มที่ใช้บ่อยทั้งชุด จากนั้นจึงลบชุดไอเท็มที่ใช้บ่อยซึ่งเป็นชุดย่อยที่เหมาะสม และให้การสนับสนุนที่คล้ายกันกับชุดไอเท็มที่ใช้บ่อยในปัจจุบัน

วิธีนี้สามารถได้มา 2 100 −1 ชุดไอเท็มที่ใช้บ่อยเพื่อให้ได้ชุดไอเท็มที่มีความยาว -100 ทั้งหมดก่อนที่จะเริ่มลบชุดไอเท็มซ้ำซ้อน เทคนิคที่แนะนำคือการค้นหาชุดไอเท็มที่ปิดบ่อยอย่างแม่นยำในระหว่างขั้นตอนการขุด สิ่งนี้ทำให้เราต้องตัดพื้นที่การค้นหาทันทีที่สามารถระบุวิธีการของชุดไอเท็มปิดระหว่างการขุดได้ มีกลยุทธ์การตัดแต่งกิ่งต่างๆ ดังต่อไปนี้ -

การรวมรายการ − หากแต่ละรายการรวมถึงชุดรายการที่ใช้บ่อย X รวมชุดรายการ Y แต่ไม่ใช่ชุดพิเศษของ Y ดังนั้น X ∪Y จะสร้างชุดรายการที่ปิดบ่อยและไม่จำเป็นต้องค้นหาชุดรายการบางรายการรวมถึง X แต่ไม่มี Y

การตัดแต่งรายการย่อย − หากชุดรายการที่ใช้บ่อย X เป็นชุดย่อยที่เหมาะสมของชุดรายการปิดบ่อยครั้งที่ค้นพบก่อนหน้านี้ Y และ support_count(X) =support_count(Y) ดังนั้น X และลูกหลานของ X ทั้งหมดในแผนผังการแจงนับชุดจะไม่สามารถเป็นชุดรายการที่ปิดบ่อยได้ ดังนั้นจึงสามารถ ตัดแต่งกิ่ง

ข้ามรายการ − ในการทำเหมืองข้อมูลชุดปิดก่อนในเชิงลึก ทุกระดับสามารถมีชุดไอเท็ม X ที่เกี่ยวข้องกับตารางส่วนหัวและฐานข้อมูลที่คาดการณ์ได้ หากรายการที่ใช้บ่อยในเครื่อง p มีการสนับสนุนที่คล้ายกันในหลายตารางส่วนหัวในหลายระดับ รายการนั้นสามารถตัด p ออกจากตารางส่วนหัวได้อย่างปลอดภัยในระดับที่ใหญ่ขึ้น

เมื่อมีการเปลี่ยนแปลง itemset ใหม่ จำเป็นต้องมีการตรวจสอบการปิดสองประเภทดังต่อไปนี้ -

  • การตรวจสอบซุปเปอร์เซ็ต − สามารถทดสอบว่าชุดรายการที่ใช้บ่อยใหม่นี้เป็นชุดของชุดรายการปิดที่พบก่อนหน้านี้ซึ่งมีการสนับสนุนที่คล้ายกันหรือไม่

  • การตรวจสอบเซตย่อย − สามารถทดสอบว่า itemset ที่ค้นพบใหม่เป็นส่วนย่อยของ itemset ที่ปิดที่พบก่อนหน้านี้ที่มีการสนับสนุนที่คล้ายกันหรือไม่

สามารถใช้เทคนิคการตัดแต่งกิ่งที่รวมรายการภายใต้โครงสร้างการแบ่งและพิชิต จากนั้นการทดสอบ superset นั้นมีอยู่จริงในตัว และไม่จำเป็นต้องดำเนินการตรวจสอบ superset อย่างชัดเจน เนื่องจากหากพบ X∪Y ของชุดรายการบ่อยช้ากว่าชุดรายการ X และมีการสนับสนุนที่คล้ายกันกับ X ชุดรายการนั้นควรอยู่ในฐานข้อมูลที่คาดการณ์ไว้ของ X และควรสร้างขึ้นในระหว่างการรวมชุดรายการ

สามารถช่วยในการตรวจสอบเซตย่อย สามารถสร้างแผนผังรูปแบบที่บีบอัดเพื่อรองรับชุดของชุดไอเท็มปิดที่ขุดได้ โครงสร้างแบบต้นไม้เหมือนกันในกลไกของ FP-tree ยกเว้นว่าชุดไอเท็มที่ปิดทั้งหมดถูกบันทึกไว้อย่างชัดเจนในกิ่งก้านของต้นไม้ที่เกี่ยวข้อง