การดึงข้อมูลคืออะไร?

การดึงข้อมูล (IR) เป็นสาขาที่มีการพัฒนาควบคู่ไปกับระบบฐานข้อมูลมาหลายปี ต่างจากสาขาของระบบฐานข้อมูลซึ่งมีการสืบค้นเป้าหมายและการประมวลผลธุรกรรมของข้อมูลที่มีโครงสร้าง การดึงข้อมูลเกี่ยวข้องกับองค์กรและการดึงข้อมูลจากเอกสารข้อความหลายฉบับ

เนื่องจากระบบการดึงข้อมูลและระบบฐานข้อมูลแต่ละระบบจัดการข้อมูลประเภทต่างๆ ปัญหาระบบฐานข้อมูลบางอย่างจึงมักไม่ปรากฏในระบบการดึงข้อมูล เช่น การควบคุมการทำงานพร้อมกัน การกู้คืน การจัดการธุรกรรม และการอัปเดต มีปัญหาทั่วไปในการดึงข้อมูลซึ่งมักจะไม่พบเจอในระบบฐานข้อมูลแบบเดิม เช่น เอกสารที่ไม่มีโครงสร้าง การค้นหาโดยประมาณตามคำหลัก และแนวคิดเกี่ยวกับความเกี่ยวข้อง

เนื่องจากมีข้อมูลข้อความจำนวนมาก การดึงข้อมูลจึงพบแอปพลิเคชั่นหลายตัว มีระบบการดึงข้อมูลอยู่หลายระบบ รวมถึงระบบแคตตาล็อกห้องสมุดออนไลน์ ระบบการจัดการบันทึกออนไลน์ และเครื่องมือค้นหาเว็บที่พัฒนาขึ้นในปัจจุบัน

ปัญหาในการดึงข้อมูลทั่วไปคือการค้นหาเอกสารที่เกี่ยวข้องในชุดเอกสารโดยขึ้นอยู่กับการสืบค้นของผู้ใช้ ซึ่งมักเป็นคำสำคัญบางคำที่กำหนดข้อมูล แม้ว่าจะเป็นตัวอย่างของบันทึกที่เกี่ยวข้องก็ตาม

เหมาะสมที่สุดเมื่อผู้ใช้ต้องการข้อมูลเฉพาะกิจ (เช่น ระยะสั้น) รวมถึงการหาข้อมูลเพื่อซื้อรถมือสอง เมื่อผู้ใช้มีความต้องการข้อมูลในระยะยาว (เช่น ความสนใจของนักวิจัย) ระบบดึงข้อมูลยังสามารถใช้ความคิดริเริ่มในการ "ส่ง" องค์ประกอบข้อมูลที่เพิ่งมาถึงไปยังผู้ใช้ หากองค์ประกอบนั้นได้รับการพิจารณาว่าเกี่ยวข้องกับข้อมูลของผู้ใช้ จำเป็น

มีสองมาตรการพื้นฐานสำหรับการประเมินคุณภาพของการดึงข้อความซึ่งมีดังต่อไปนี้ −

ความแม่นยำ − นี่คือเปอร์เซ็นต์ของข้อมูลที่ดึงมาซึ่งเกี่ยวข้องกับข้อความค้นหาจริงๆ (เช่น คำตอบที่ "ถูกต้อง") มันถูกแสดงอย่างเป็นทางการว่า

$$precision=\frac{|\left\{ Relevant \right\}\cap\left\{ Retrieved \right\}|}{|\left\{ Retrieved \right\}|}$$

เรียกคืน − นี่คือเปอร์เซ็นต์ของเรกคอร์ดที่เกี่ยวข้องกับการสืบค้นและถูกเรียกค้นจริง มันถูกแสดงอย่างเป็นทางการว่า

$$recall=\frac{|\left\{ Relevant \right\}\cap\left\{ Retrieved \right\}|}{|\left\{ Relevant \right\}|} $$

ระบบการดึงข้อมูลมักจะจำเป็นในการแลกเปลี่ยนการเรียกคืนเพื่อความแม่นยำหรือในทางกลับกัน มีข้อแลกเปลี่ยนที่ใช้กันโดยทั่วไปคือ F-score ซึ่งแสดงแทนค่าเฉลี่ยฮาร์โมนิกของการเรียกคืนและความแม่นยำ -

$$F\underline{}score=\frac{recall \times precision }{(recall+precision)^{2}}$$

ฮาร์โมนิกหมายถึงปัญหาระบบที่เสียสละการวัดอื่นมากเกินไป ความแม่นยำ การเรียกคืน และคะแนน F เป็นการวัดพื้นฐานของการรวบรวมระเบียนที่ดึงมา การวัดทั้งสามนี้ไม่มีประโยชน์โดยทั่วไปในการเปรียบเทียบรายการไฟล์ที่ได้รับการจัดอันดับสองรายการ เนื่องจากไม่มีความสำคัญต่อการจัดอันดับภายในของเอกสารในชุดที่ดึงข้อมูล