Computer >> คอมพิวเตอร์ >  >> การเขียนโปรแกรม >> การเขียนโปรแกรม

กฎการเชื่อมโยงหลายระดับการขุดจากฐานข้อมูลธุรกรรมมีอะไรบ้าง


แนวทางการทำเหมืองกฎการเชื่อมโยงหลายระดับนั้นขึ้นอยู่กับกรอบการสนับสนุนความเชื่อมั่น กลยุทธ์จากบนลงล่างจะใช้โดยที่การนับสะสมสำหรับการคำนวณชุดไอเท็มบ่อยในแต่ละระดับแนวคิด โดยเริ่มต้นที่ระดับแนวคิด 1 และทำงานไปยังระดับแนวคิดเฉพาะที่ต่ำกว่าจนกว่าจะพบชุดรายการบ่อยขึ้นโดยใช้อัลกอริทึม Apriori

ข้อมูลสามารถทำให้เป็นภาพรวมได้โดยการแทนที่แนวคิดระดับต่ำภายในข้อมูลด้วยแนวคิดระดับสูงกว่าหรือบรรพบุรุษจากลำดับชั้นแนวคิด ในลำดับชั้นของแนวคิด ซึ่งแสดงเป็นทรีที่มีรูทเป็น D เช่น ข้อมูลที่เกี่ยวข้องกับงาน

ขอบเขตการใช้งานที่เป็นที่นิยมสำหรับการเชื่อมโยงหลายระดับคือการวิเคราะห์ตะกร้าตลาดซึ่งศึกษาพฤติกรรมการซื้อของลูกค้าโดยการค้นหาชุดของรายการที่ซื้อบ่อยซึ่งแสดงอยู่ในแนวคิดของลำดับชั้นแนวคิด

แต่ละโหนดระบุรายการหรือชุดรายการที่ได้รับการตรวจสอบ มีวิธีการต่างๆ มากมายในการค้นหาชุดรายการที่ใช้บ่อยในระดับของนามธรรมทุกระดับ วิธีการบางอย่างที่ใช้อยู่คือ 'ใช้การสนับสนุนขั้นต่ำที่สม่ำเสมอสำหรับทุกระดับ' โดยใช้การรองรับขั้นต่ำที่ลดลงในระดับต่ำ เป็นอิสระทีละระดับ

ฐานข้อมูลหลายระดับต้องการตารางธุรกรรมที่เข้ารหัสข้อมูลลำดับชั้นแทนที่จะเป็นตารางธุรกรรมเริ่มต้น สิ่งนี้มีประโยชน์เมื่อเราสนใจเพียงส่วนหนึ่งของฐานข้อมูลธุรกรรม เช่น อาหาร แทนที่จะเป็นรายการทั้งหมด ด้วยวิธีนี้ เราสามารถรวบรวมชุดข้อมูลที่เกี่ยวข้องก่อน จากนั้นจึงทำงานซ้ำๆ ในชุดที่เกี่ยวข้องกับงาน ดังนั้นในตารางธุรกรรม แต่ละรายการจะถูกเข้ารหัสเป็นลำดับของตัวเลข

ใช้การสนับสนุนขั้นต่ำที่สม่ำเสมอสำหรับทุกระดับ − เมื่อใช้เกณฑ์การสนับสนุนขั้นต่ำที่สม่ำเสมอ ขั้นตอนการค้นหาจะง่ายขึ้น เทคนิคการเพิ่มประสิทธิภาพสามารถนำมาใช้ โดยอาศัยความรู้ที่ว่าบรรพบุรุษเป็นชุดของลูกหลาน การค้นหาจะหลีกเลี่ยงการตรวจสอบชุดรายการที่มีรายการใดๆ ที่บรรพบุรุษไม่มีการสนับสนุนขั้นต่ำ

ข้อเสียเปรียบหลักของแนวทางการสนับสนุนแบบเดียวกันคือรายการที่อยู่ในระดับต่ำกว่าของนามธรรมจะเกิดขึ้นบ่อยเท่ากับรายการในระดับที่สูงขึ้นของนามธรรม

ใช้การสนับสนุนขั้นต่ำที่ลดลงในระดับที่ต่ำกว่า − แต่ละระดับของนามธรรมมีเกณฑ์การสนับสนุนขั้นต่ำ ยิ่งระดับนามธรรมต่ำเท่าใด เกณฑ์เทียบเท่าก็จะยิ่งเล็กลง หมวดหมู่การค้นหาต่อไปนี้สำหรับการขุดการเชื่อมโยงหลายระดับพร้อมการสนับสนุนที่ลดลงคือ -

  • ระดับตามระดับอิสระ − เป็นการค้นหาแบบกว้าง ความรู้พื้นฐานเกี่ยวกับชุดรายการที่ใช้บ่อยสำหรับการตัดแต่งกิ่ง ที่นี่แต่ละโหนดจะถูกตรวจสอบโดยไม่คำนึงว่าโหนดหลักจะพบบ่อย

  • ระดับการกรองแบบไขว้ตามรายการเดียว − รายการที่เป็นระดับ ith จะถูกกำหนดก็ต่อเมื่อโหนดหลักที่ระดับ (i-1) เป็นความถี่เท่านั้น

  • ระดับการกรองแบบไขว้โดย k-itemset − ชุดไอเท็มที่ระดับ ith จะถูกกำหนดก็ต่อเมื่อ A-itemset พาเรนต์เทียบเท่าที่ระดับ (i-1)th เป็นประจำ