ความท้าทายของการขุดลิงค์คืออะไร?

การทำเหมืองลิงก์มีความท้าทายหลายประการ ดังนี้ -

การพึ่งพาทางตรรกะกับทางสถิติ − การพึ่งพาสองประเภทอยู่ในโครงสร้างลิงก์กราฟ (แสดงถึงความสัมพันธ์เชิงตรรกะระหว่างออบเจ็กต์) และการพึ่งพาอาศัยกันที่น่าจะเป็น (แสดงถึงความสัมพันธ์ทางสถิติ เช่น ความสัมพันธ์ระหว่างแอตทริบิวต์ของออบเจ็กต์ ซึ่งโดยทั่วไปแล้ว ออบเจ็กต์ดังกล่าวมีความเกี่ยวข้องเชิงตรรกะ)

การจัดการการพึ่งพาเหล่านี้ที่สอดคล้องกันยังเป็นความท้าทายสำหรับการทำเหมืองข้อมูลแบบหลายความสัมพันธ์ โดยที่ข้อมูลที่จะขุดอยู่ในหลายตาราง ควรค้นหาความสัมพันธ์เชิงตรรกะที่เป็นไปได้หลายอย่างระหว่างอ็อบเจ็กต์ นอกจากนี้ การค้นหามาตรฐานเหนือการพึ่งพาความน่าจะเป็นระหว่างแอตทริบิวต์ ซึ่งต้องใช้พื้นที่การค้นหาขนาดใหญ่ ซึ่งทำให้การค้นหาแบบจำลองทางคณิตศาสตร์ที่สมเหตุสมผลซับซ้อนยิ่งขึ้น วิธีการที่พัฒนาขึ้นในการเขียนโปรแกรมลอจิกอุปนัยอาจนำไปใช้ที่นี่ ซึ่งเน้นที่การค้นหามากกว่าความสัมพันธ์เชิงตรรกะ
การสร้างคุณลักษณะ − ในการจำแนกตามลิงค์ สามารถพิจารณาคุณสมบัติของวัตถุและคุณสมบัติของวัตถุที่เชื่อมต่อ นอกจากนี้ ลิงก์ยังสามารถมีแอตทริบิวต์ได้ วัตถุประสงค์ของการสร้างคุณลักษณะคือการสร้างคุณลักษณะเดียวที่กำหนดคุณลักษณะเหล่านี้ ซึ่งอาจประกอบด้วยการเลือกคุณลักษณะและการรวมคุณลักษณะ ในการเลือกคุณลักษณะ จะมีเฉพาะคุณลักษณะที่เลือกปฏิบัติมากที่สุดเท่านั้น
อินสแตนซ์เทียบกับคลาส − สิ่งนี้พาดพิงถึงว่าแบบจำลองอ้างถึงบุคคลหรือชั้นเรียน (หมวดหมู่ทั่วไป) ของบุคคลอย่างชัดเจนหรือไม่ ประโยชน์ของรูปแบบเดิมคือสามารถใช้เชื่อมต่อเฉพาะบุคคลที่มีความน่าจะเป็นสูงได้ ข้อได้เปรียบของรูปแบบหลังคือสามารถใช้ในการสรุปสถานการณ์ใหม่กับหลาย ๆ คนได้
การใช้ข้อมูลที่มีป้ายกำกับและไม่มีป้ายกำกับอย่างมีประสิทธิภาพ − กลยุทธ์ล่าสุดในการเรียนรู้คือการรวมข้อมูลทั้งที่ติดฉลากและไม่ติดฉลากเข้าด้วยกัน ข้อมูลที่ไม่มีป้ายกำกับสามารถรองรับการอนุมานการกระจายแอตทริบิวต์ของวัตถุได้ การเชื่อมโยงระหว่างข้อมูลที่ไม่มีป้ายกำกับ (ทดสอบ) ทำให้เราใช้แอตทริบิวต์ของวัตถุที่เชื่อมโยงได้ การเชื่อมโยงระหว่างข้อมูลที่มีป้ายกำกับ (การฝึกอบรม) และข้อมูลที่ไม่มีป้ายกำกับ (ทดสอบ) ทำให้เกิดการขึ้นต่อกันที่สามารถช่วยสร้างการอนุมานที่แม่นยำยิ่งขึ้น
การคาดคะเนลิงก์ − ความท้าทายในการทำนายการเชื่อมโยงคือความน่าจะเป็นก่อนหน้าของการเชื่อมโยงระหว่างวัตถุโดยเฉพาะนั้นต่ำมาก มีหลายวิธีในการเชื่อมโยงการคาดการณ์ที่ได้รับการเสนอโดยอิงตามมาตรการหลายอย่างสำหรับการวิเคราะห์ความใกล้ชิดของโหนดในเครือข่าย มีการเสนอแบบจำลองความน่าจะเป็นด้วย สำหรับชุดข้อมูลขนาดใหญ่ การสร้างแบบจำลองลิงก์ในระดับที่สูงขึ้นจะมีประสิทธิภาพมากขึ้น
ข้อสันนิษฐานแบบปิดและแบบโลกเปิด − วิธีการแบบเดิมๆ ส่วนใหญ่ถือว่าเรารู้จักหน่วยงานที่มีศักยภาพทั้งหมดในโดเมน ข้อสันนิษฐาน "โลกปิด" นี้ไม่สมจริงในการใช้งานในโลกแห่งความเป็นจริง งานในพื้นที่นี้เกี่ยวข้องกับการแนะนำภาษาสำหรับกำหนดการกระจายความน่าจะเป็นเหนือโครงสร้างเชิงสัมพันธ์ที่มีชุดของวัตถุหลายชุด