Computer >> คอมพิวเตอร์ >  >> การเขียนโปรแกรม >> การเขียนโปรแกรม

GSP คืออะไร?


GSP ย่อมาจาก Generalized Sequential Patterns เป็นวิธีการทำเหมืองรูปแบบต่อเนื่องที่ผลิตโดย Srikant และ Agrawal ในปี 1996 เป็นการขยายอัลกอริทึมของน้ำเชื้อสำหรับการขุด itemset ปกติที่เรียกว่า Apriori GSP ต้องการลักษณะการปิดลงของรูปแบบตามลำดับและใช้วิธีการสร้างและทดสอบแบบหลายรอบสำหรับนักเรียน

อัลกอริทึมมีดังนี้ ในการสแกนฐานข้อมูลครั้งแรก มันสามารถค้นพบรายการบางรายการที่พบบ่อย เช่น รายการที่มีการสนับสนุนขั้นต่ำ แต่ละรายการให้ผลลัพธ์ 1 เหตุการณ์ที่มีลำดับบ่อยครั้งรวมทั้งรายการนั้น แต่ละรอบที่ตามมาจะเริ่มต้นด้วยกลุ่มเมล็ดพันธุ์ของรูปแบบต่อเนื่องและกลุ่มของรูปแบบต่อเนื่องที่พบในรอบก่อนหน้านั้น

ชุดเมล็ดพันธุ์นี้สามารถสร้างรูปแบบใหม่ที่อาจเกิดขึ้นบ่อยครั้ง ซึ่งเรียกว่าลำดับของผู้สมัคร ชุดตัวเลือกแต่ละรายการมีรายการมากกว่าหนึ่งรายการซึ่งมากกว่ารูปแบบลำดับของเมล็ดพันธุ์ที่สร้างมันขึ้นมา (โดยที่แต่ละเหตุการณ์ในรูปแบบสามารถมีได้หนึ่งรายการหรือหลายรายการ)

อินสแตนซ์หลายรายการในลำดับคือความสูงของลำดับ ดังนั้นบางลำดับของผู้สมัครในการผ่านที่กำหนดจะมีความสูงเท่ากัน มันกำหนดลำดับที่มีความยาว k เป็นลำดับ k

ให้ Ck ระบุชุดของผู้สมัคร k-sequences การส่งผ่านฐานข้อมูลจะพบการสนับสนุนสำหรับลำดับ k ของผู้สมัครทุกคน ผู้สมัครใน Ck ด้วยรูปแบบ min_sup ขั้นต่ำ Lk , เซตของ k-sequence ที่ใช้บ่อยทั้งหมด ชุดนี้พัฒนาเป็นชุดเมล็ดพันธุ์สำหรับรอบต่อไป k+1 อัลกอริทึมจะลบออกเมื่อไม่พบรูปแบบลำดับใหม่ในการผ่าน หรือไม่สามารถสร้างลำดับตัวเลือกได้

GSP ใช้คุณสมบัติ Apriori เพื่อย่อชุดผู้สมัครดังนี้ ในรอบที่ k อนุกรมเป็นลำดับต่อเมื่อแต่ละช่วงความยาว-(k −1) ของมันเป็นรูปแบบลำดับที่ค้นพบที่ (k -1)-ผ่าน

การสแกนฐานข้อมูลครั้งใหม่รวบรวมการสนับสนุนสำหรับลำดับผู้สมัครแต่ละราย และค้นพบรูปแบบการเรียงลำดับชุดใหม่ Lk . ชุดนี้พัฒนาเป็นเมล็ดในรอบต่อไป อัลกอริทึมจะลบออกเมื่อไม่พบรูปแบบลำดับในการผ่านหรือเมื่อไม่มีการสร้างลำดับของตัวเลือก

นอกจากนี้ยังสามารถวิเคราะห์เทคนิคการทำเหมืองตามรูปแบบตามลำดับของ Apriori (ขึ้นอยู่กับการสร้างและทดสอบของผู้สมัคร) โดยการวัดฐานข้อมูลลำดับเป็นรูปแบบข้อมูลแนวตั้ง ในรูปแบบข้อมูลแนวตั้ง ฐานข้อมูลจะเปลี่ยนเป็นชุดของทูเพิลของฟอร์ม (itemset:(sequence_ID, event_ID))

ตัวระบุเหตุการณ์จัดให้มีการประทับเวลาภายในลำดับ event_ID ของชุดไอเท็ม ith (หรือเหตุการณ์) ในลำดับคือ i ชุดไอเท็มสามารถปรากฏได้มากกว่าหนึ่งลำดับ ชุดของ (รหัสลำดับ รหัสเหตุการณ์) รวมกันสำหรับชุดรายการที่กำหนดในรูปแบบ ID_list ของชุดรายการ