Computer >> คอมพิวเตอร์ >  >> การเขียนโปรแกรม >> การเขียนโปรแกรม

การขุดรูปแบบตามลำดับคืออะไร?


การขุดตามรูปแบบตามลำดับคือการขุดของเหตุการณ์ต่อเนื่องหรือลำดับต่อๆ มาที่มักจะปรากฏเป็นรูปแบบ ตัวอย่างรูปแบบต่อเนื่องคือ ผู้ใช้ที่ซื้อกล้องดิจิตอล Canon จะต้องซื้อเครื่องพิมพ์สี HP ภายในหนึ่งเดือน

สำหรับข้อมูลการขายปลีก รูปแบบตามลำดับจะเป็นประโยชน์สำหรับการจัดวางชั้นวางและการส่งเสริมการขาย อุตสาหกรรมนี้ โทรคมนาคม และธุรกิจต่างๆ ยังสามารถใช้รูปแบบที่ต่อเนื่องกันสำหรับการตลาดแบบกำหนดเป้าหมาย การรักษาผู้ใช้ และงานต่างๆ ได้

มีหลายส่วนที่สามารถใช้รูปแบบตามลำดับได้ เช่น การวิเคราะห์รูปแบบการเข้าถึงเว็บ การพยากรณ์อากาศ กระบวนการผลิต และการตรวจจับการบุกรุกเว็บ

กำหนดชุดของลำดับ โดยที่แต่ละลำดับประกอบด้วยไฟล์ของเหตุการณ์ (หรือองค์ประกอบ) และแต่ละเหตุการณ์รวมถึงกลุ่มของรายการ และกำหนดเกณฑ์ขั้นต่ำที่ผู้ใช้ระบุให้ขั้นต่ำ การทำเหมืองรูปแบบตามลำดับจะค้นพบลำดับที่ตามมาบ่อยครั้งทั้งหมด กล่าวคือ ลำดับย่อยที่มีความถี่เกิดขึ้นในกลุ่มของลำดับไม่ต่ำกว่า min_sup

ให้ I ={I1 , ฉัน2 ,..., ฉันp } เป็นเซตของไอเทมทั้งหมด itemset คือชุดของไอเท็มที่ไม่ว่างเปล่า ลำดับคือลำดับเหตุการณ์ ลำดับ s ถูกระบุ {e1 , e2 , e3 … el } โดยที่เหตุการณ์ e1 ปรากฏขึ้นก่อน e2 ซึ่งปรากฏก่อน e3 , เป็นต้น เหตุการณ์ ej เรียกอีกอย่างว่าองค์ประกอบของ s.

ในกรณีของข้อมูลการซื้อของผู้ใช้ เหตุการณ์จะกำหนดการเดินทางช็อปปิ้งที่ลูกค้าซื้อสินค้าที่ร้านค้าเฉพาะ งานนี้เป็นรายการชุด นั่นคือ รายการแบบไม่เรียงลำดับของรายการที่ลูกค้าซื้อระหว่างการเดินทาง มีการระบุ itemset (หรือเหตุการณ์) (x1 x2 ···xq ) โดยที่ xk เป็นไอเทม

รายการสามารถปรากฏเพียงครั้งเดียวในเหตุการณ์ของลำดับ แต่สามารถปรากฏได้หลายครั้งในเหตุการณ์ต่างๆ ของลำดับ อินสแตนซ์หลายรายการในลำดับเรียกว่าความยาวของลำดับ ลำดับที่มีความยาว l เรียกว่า l-sequence

ฐานข้อมูลลำดับ S คือกลุ่มของทูเพิล (SID, s) โดยที่ SID คือซีเควนซ์_ID และ s คือลำดับ ตัวอย่างเช่น S มีลำดับสำหรับผู้ใช้ทั้งหมดของร้านค้า ทูเพิล (SID, s) รวมลำดับ α ถ้า α เป็นผลสืบเนื่องของ s

ขั้นตอนการทำเหมืองรูปแบบตามลำดับนี้เป็นนามธรรมของการวิเคราะห์ลำดับการซื้อของผู้ใช้ เทคนิคที่ปรับขนาดได้สำหรับการทำเหมืองข้อมูลรูปแบบตามลำดับบนบันทึกดังกล่าวมีดังต่อไปนี้ -

มีแอพพลิเคชั่นการทำเหมืองรูปแบบต่อเนื่องหลายแบบที่ไม่สามารถครอบคลุมได้ในเฟสนี้ ตัวอย่างเช่น เมื่อวิเคราะห์ซีรีส์การคลิกสตรีมของเว็บ ช่องว่างระหว่างการคลิกจะกลายเป็นเรื่องสำคัญ หากจำเป็นต้องคาดการณ์ว่าการคลิกครั้งต่อไปจะเป็นอย่างไร

ในการวิเคราะห์ลำดับดีเอ็นเอ รูปแบบโดยประมาณจะมีประโยชน์เนื่องจากลำดับดีเอ็นเอสามารถรวม (สัญลักษณ์) การแทรก การลบ และการกลายพันธุ์ ข้อกำหนดที่หลากหลายดังกล่าวถือเป็นการผ่อนคลายข้อจำกัดหรือการประยุกต์ใช้