Computer >> คอมพิวเตอร์ >  >> การเขียนโปรแกรม >> การเขียนโปรแกรม

ทำไมต้องใช้ Support and Confidence ในการทำเหมืองข้อมูล?


แนวรับเป็นตัวชี้วัดที่สำคัญ เนื่องจากกฎที่มีแนวรับต่ำมากอาจปรากฏขึ้นโดยบังเอิญได้ง่าย กฎการสนับสนุนที่ต่ำก็เป็นไปได้ที่จะสร้างความเบื่อหน่ายจากมุมมองทางธุรกิจเพราะไม่สามารถทำกำไรได้เพื่อปรับปรุงรายการที่ผู้ใช้ไม่ค่อยได้ซื้อร่วมกัน

กฎการเชื่อมโยงคือคำอธิบายโดยนัยของรูปแบบ X→Y โดยที่ X และ Y เป็นชุดรายการที่แยกจากกัน เช่น $\mathrm{X\cap\:Y=\phi}$ ความทนทานของกฎการเชื่อมโยงสามารถคำนวณได้ในแง่ของการสนับสนุนและความมั่นใจ ฝ่ายสนับสนุนตัดสินใจว่าจะให้กฎที่เข้าถึงชุดข้อมูลที่กำหนดได้อย่างไร ในขณะที่ความมั่นใจจะตัดสินว่ารายการใน Y เกิดขึ้นในธุรกรรมที่มี X บ่อยเพียงใด

ความมั่นใจจะวัดความถูกต้องของการอนุมานที่เกิดจากกฎ สำหรับกฎที่กำหนดรูปแบบ X→Y ยิ่งมีความเชื่อมั่นมากเท่าใด ก็ยิ่งยอมรับได้มากสำหรับ Y ที่จะมีอยู่ในธุรกรรมที่รวม X ไว้ด้วย ความมั่นใจยังสนับสนุนการประมาณความน่าจะเป็นแบบมีเงื่อนไขของ Y ที่ได้รับจาก X

ผลการวิเคราะห์ความสัมพันธ์ต้องดำเนินการด้วยความระมัดระวัง การอนุมานที่เกิดจากกฎสมาคมไม่ได้หมายความถึงความเป็นเหตุเป็นผล แทนที่จะแสดงให้เห็นความสัมพันธ์ที่มีประสิทธิภาพในการปรากฏตัวร่วมกันระหว่างองค์ประกอบต่างๆ ในอดีตและผลที่ตามมาของกฎ เวรกรรมต้องการความรู้เกี่ยวกับแอตทริบิวต์เชิงสาเหตุและผลกระทบในข้อมูล และโดยทั่วไปประกอบด้วยความสัมพันธ์ที่ปรากฏขึ้นเมื่อเวลาผ่านไป

ปัญหาการขุดกฎสมาคมสามารถระบุได้ดังนี้ -

การค้นพบกฎสมาคม − ให้ชุดของธุรกรรม T ค้นพบกฎบางอย่างที่มีการสนับสนุน ≥ minsup และ trust ≥ minconf โดยที่ minsup และ minconf เป็นเกณฑ์การสนับสนุนและความมั่นใจที่เท่าเทียมกัน

วิธีการที่ใช้กำลังดุร้ายสำหรับกฎการเชื่อมโยงการขุดคือการคำนวณการสนับสนุนและความมั่นใจสำหรับกฎที่เกี่ยวข้องแต่ละกฎ วิธีนี้มีราคาแพงมากเนื่องจากมีกฎหลายข้อที่สามารถคัดลอกจากชุดข้อมูลได้

ขั้นตอนเดิมในการเพิ่มประสิทธิภาพการใช้อัลกอริทึมการขุดตามกฎการเชื่อมโยงคือการแยกข้อกำหนดด้านการสนับสนุนและความมั่นใจออก หากชุดไอเท็มเป็นเลขคี่ ดังนั้นกฎของผู้สมัครทั้งหกข้อจึงสามารถตัดออกได้โดยตรงโดยไม่ต้องคำนวณค่าความเชื่อมั่น

ดังนั้น กลยุทธ์ทั่วไปนอกชายฝั่งโดยอัลกอริทึมการขุดกฎการเชื่อมโยงหลายตัวคือการแยกประเด็นออกเป็นสองงานย่อยหลัก -

การสร้างชุดรายการที่ใช้บ่อย − วัตถุประสงค์คือเพื่อค้นหาชุดไอเท็มบางอย่างที่จำเป็นต้องมีธรณีประตู ชุดรายการเหล่านี้เรียกว่าชุดรายการที่ใช้บ่อย

การสร้างกฎ − วัตถุประสงค์คือเพื่อดึงกฎที่มีความมั่นใจสูงออกจากชุดไอเท็มบ่อยครั้งที่ค้นพบในขั้นตอนก่อนหน้า กฎเหล่านี้เรียกว่ากฎที่เข้มงวด ข้อกำหนดด้านการคำนวณสำหรับการสร้างชุดรายการบ่อยครั้งมักมีราคาแพงกว่าการสร้างกฎ