Computer >> คอมพิวเตอร์ >  >> การเขียนโปรแกรม >> การเขียนโปรแกรม

การประเมินรูปแบบความสัมพันธ์เป็นอย่างไร?


อัลกอริธึมการวิเคราะห์การเชื่อมโยงมีแนวโน้มที่จะสร้างรูปแบบจำนวนมาก ตัวอย่างเช่น แม้ว่าชุดข้อมูลจะมีเพียงหกรายการ แต่ก็สามารถสร้างกฎการเชื่อมโยงได้มากถึงหลายพันกฎที่เกณฑ์การสนับสนุนและความเชื่อมั่นที่เฉพาะเจาะจง เนื่องจากขนาดและมิติของฐานข้อมูลการเงินจริงอาจมีขนาดใหญ่ จึงสามารถลงเอยด้วยรูปแบบนับพันหรือล้านรูปแบบ ซึ่งบางรูปแบบก็ไม่น่าสนใจ

การวิเคราะห์ผ่านรูปแบบการรับรู้สิ่งที่น่าสนใจที่สุดไม่ใช่บริการที่ไม่สำคัญเพราะขยะของคนหนึ่งสามารถเป็นสมบัติของอีกคนหนึ่งได้ จำเป็นต้องสร้างชุดวิธีการที่เป็นที่ยอมรับในการคำนวณคุณภาพของรูปแบบการเชื่อมโยง

เกณฑ์ชุดแรกสามารถสร้างได้โดยใช้อาร์กิวเมนต์ทางสถิติ รูปแบบที่มีกลุ่มของรายการที่แยกจากกันหรือครอบคลุมหลายรายการจะถือว่าไม่น่าสนใจเพราะอาจเชื่อมโยงข้อมูลปลอมได้

รูปแบบดังกล่าวสามารถลบออกได้โดยใช้ส่วนที่น่าสนใจตามวัตถุประสงค์ซึ่งใช้สถิติที่ได้มาจากข้อมูลเพื่อตัดสินว่ารูปแบบนั้นน่าสนใจหรือไม่ ตัวอย่างการวัดความน่าสนใจเชิงวัตถุ เช่น การสนับสนุน ความเชื่อมั่น และความสัมพันธ์

เกณฑ์ชุดที่สองสามารถสร้างขึ้นได้โดยใช้อาร์กิวเมนต์ส่วนตัว รูปแบบได้รับการปฏิบัติอย่างไม่น่าสนใจเว้นแต่จะรับทราบข้อมูลที่ไม่คาดคิดเกี่ยวกับข้อมูลหรือสนับสนุนความรู้ที่เป็นประโยชน์ซึ่งสามารถนำไปสู่บริการที่สร้างผลกำไรได้

ตัวอย่างเช่น กฎ {Butter}→{Bread} ไม่สามารถน่าสนใจได้ แม้จะมีค่าการสนับสนุนและความมั่นใจสูงก็ตาม เนื่องจากความสัมพันธ์ที่กำหนดโดยกฎอาจดูค่อนข้างชัดเจน

ในอีกแง่หนึ่ง กฎ {Diapers}}→{{Beer} น่าสนใจเนื่องจากความสัมพันธ์นี้คาดไม่ถึงและสามารถแนะนำกิจกรรมการขายต่อเนื่องครั้งใหม่สำหรับผู้ค้าปลีก การรวมความรู้เชิงอัตนัยเข้ากับการคำนวณแบบแผนเป็นงานที่ซับซ้อน เนื่องจากต้องใช้ข้อมูลก่อนหน้าจำนวนมากจากผู้เชี่ยวชาญโดเมน

ต่อไปนี้เป็นแนวทางหลายวิธีในการรวมความรู้ที่มีอคติเข้ากับภารกิจการค้นพบรูปแบบ ซึ่งมีดังนี้ -

การแสดงภาพ − วิธีการนี้ต้องการสภาพแวดล้อมที่เป็นมิตรต่อผู้ใช้เพื่อรักษาผู้ใช้ที่เป็นมนุษย์ให้อยู่ในวง นอกจากนี้ยังช่วยให้ผู้เชี่ยวชาญด้านโดเมนเชื่อมต่อกับระบบการทำเหมืองข้อมูลด้วยการดำเนินการและทดสอบรูปแบบที่ค้นพบ

แนวทางตามเทมเพลต − วิธีการนี้ทำให้ผู้ใช้สามารถจำกัดประเภทของรูปแบบที่คัดลอกโดยอัลกอริธึมการขุด แทนที่จะบันทึกกฎที่แยกออกมาทั้งหมด ระบบจะกู้คืนเฉพาะกฎที่ต้องใช้เทมเพลตที่ผู้ใช้กำหนดเท่านั้นที่จะกู้คืนไปยังผู้ใช้

การวัดความน่าสนใจแบบอัตนัย − การวัดแบบอัตนัยสามารถแสดงตามข้อมูลโดเมน รวมถึงลำดับชั้นของแนวคิดหรือขีดจำกัดขององค์ประกอบ การวัดสามารถใช้เพื่อกรองรูปแบบที่เข้าถึงได้และไม่สามารถดำเนินการได้