Computer >> คอมพิวเตอร์ >  >> การเขียนโปรแกรม >> การเขียนโปรแกรม

กฎการทำเหมืองเชื่อมโยงหลายมิติจากฐานข้อมูลเชิงสัมพันธ์และคลังข้อมูลมีอะไรบ้าง


การเรียนรู้กฎการเชื่อมโยงเป็นเทคนิคการเรียนรู้แบบไม่มีผู้ดูแลประเภทหนึ่ง ซึ่งจะทดสอบการพึ่งพาองค์ประกอบข้อมูลหนึ่งบนองค์ประกอบข้อมูลอื่นและแมปตามลำดับเพื่อให้สามารถใช้ในเชิงพาณิชย์มากขึ้น จะพยายามค้นหาความสัมพันธ์หรือความสัมพันธ์ที่น่าสนใจระหว่างตัวแปรของชุดข้อมูล การค้นหาความสัมพันธ์ที่น่าสนใจระหว่างตัวแปรในฐานข้อมูลขึ้นอยู่กับกฎหลายข้อ

การเรียนรู้กฎการเชื่อมโยงเป็นแนวคิดที่สำคัญของการเรียนรู้ของเครื่อง และใช้ในการวิเคราะห์ตะกร้าตลาด การขุดการใช้เว็บ การผลิตอย่างต่อเนื่อง ฯลฯ ดังนั้นการวิเคราะห์ตะกร้าตลาดจึงเป็นแนวทางที่ผู้ค้าปลีกรายใหญ่หลายรายใช้เพื่อค้นหาความเชื่อมโยงระหว่างรายการต่างๆ

ในการวิเคราะห์ตะกร้าสินค้าในตลาด พฤติกรรมการซื้อของลูกค้าจะได้รับการวิเคราะห์โดยการค้นหาความเชื่อมโยงระหว่างสินค้าต่างๆ ที่ลูกค้าใส่ในตะกร้าสินค้าของตน

การค้นพบความสัมพันธ์ดังกล่าวทำให้ผู้ค้าปลีกสร้างแนวทางการตลาดโดยการวิเคราะห์ว่าสินค้าใดที่ลูกค้าซื้อโดยทั่วไป การเชื่อมโยงนี้สามารถนำไปสู่การเพิ่มยอดขายโดยการสนับสนุนให้ผู้ค้าปลีกทำการตลาดแบบเลือกสรรและวางแผนสำหรับพื้นที่ชั้นวางของตน

ขอบเขตการใช้งานที่เป็นที่นิยมสำหรับการเชื่อมโยงหลายระดับคือการวิเคราะห์ตะกร้าตลาดซึ่งศึกษาพฤติกรรมการซื้อของลูกค้าโดยการค้นหาชุดของรายการที่ซื้อบ่อยซึ่งแสดงอยู่ในแนวคิดของลำดับชั้นแนวคิด

กฎการเชื่อมโยงที่มีมิติหรือเพรดิเคตตั้งแต่สองมิติขึ้นไปสามารถอ้างถึงเป็นกฎการเชื่อมโยงหลายมิติ ตัวอย่างเช่น

อายุ (X, "20...29") ^อาชีพ (X,"นักศึกษา") =>ซื้อ (X,"แล็ปท็อป")

กฎนี้มีภาคแสดงสามภาค (อายุ อาชีพ และการซื้อ) ซึ่งแต่ละภาคเกิดขึ้นเพียงครั้งเดียวในกฎ กฎดังกล่าวเรียกว่ากฎการเชื่อมโยงหลายมิติ กฎที่มีเพรดิเคตซ้ำหรือประกอบด้วยเพรดิเคตบางรายการหลายครั้งเรียกว่ากฎการเชื่อมโยงมิติไฮบริด

ตัวอย่างเช่น

อายุ (X, "20...29") ^ซื้อ (X,"แล็ปท็อป") =>ซื้อ (X,"เครื่องพิมพ์")

แอตทริบิวต์ฐานข้อมูลควรเป็นหมวดหมู่หรือเชิงปริมาณ

แอตทริบิวต์ตามหมวดหมู่มีค่าที่เป็นไปได้จำนวนจำกัด โดยไม่มีการจัดลำดับระหว่างค่าที่เรียกว่าแอตทริบิวต์ที่ระบุ

แอตทริบิวต์เชิงปริมาณเป็นตัวเลขและมีการจัดลำดับโดยนัยระหว่างค่าต่างๆ แนวทางพื้นฐานสามประการเกี่ยวกับการรักษาคุณลักษณะเชิงปริมาณมีดังนี้ −

  • ในแนวทางแรก คุณลักษณะเชิงปริมาณจะถูกแยกออกโดยใช้ลำดับชั้นแนวคิดที่กำหนดไว้ล่วงหน้า ซึ่งเกิดขึ้นก่อนการขุด แอตทริบิวต์ตัวเลขที่ไม่ต่อเนื่องกับค่าช่วงสามารถถือเป็นแอตทริบิวต์หมวดหมู่ได้

  • ในแนวทางที่สอง คุณลักษณะเชิงปริมาณจะถูกจัดประเภทในถังขยะและขึ้นอยู่กับการกระจายของข้อมูล ถังขยะเหล่านี้สามารถรวมเข้าด้วยกันเพิ่มเติมได้ในระหว่างกระบวนการขุด ดังนั้นกระบวนการของการแยกแยะจึงเป็นไดนามิกและเป็นที่ยอมรับ

  • ในแนวทางที่สาม คุณลักษณะเชิงปริมาณจะถูกแยกออกเพื่อจับความหมายเชิงความหมายของข้อมูลช่วงเวลาดังกล่าว ขั้นตอนการแยกส่วนที่มีประสิทธิภาพนี้รักษาระยะห่างระหว่างจุดข้อมูล