Computer >> คอมพิวเตอร์ >  >> การเขียนโปรแกรม >> การเขียนโปรแกรม

วิธีการดึงข้อความมีอะไรบ้าง?


การดึงข้อความคือกระบวนการเปลี่ยนข้อความที่ไม่มีโครงสร้างให้อยู่ในรูปแบบที่มีโครงสร้างเพื่อระบุรูปแบบที่มีความหมายและข้อมูลเชิงลึกใหม่ๆ ด้วยการใช้เทคนิคการวิเคราะห์ขั้นสูง ซึ่งรวมถึง Naïve Bayes, Support Vector Machines (SVM) และอัลกอริธึมการเรียนรู้เชิงลึกอื่นๆ องค์กรจึงสามารถสำรวจและค้นหาความสัมพันธ์ที่ซ่อนอยู่ภายในข้อมูลที่ไม่มีโครงสร้างได้ การดึงข้อความมี 2 วิธีดังนี้ −

การเลือกเอกสาร − ในวิธีการเลือกเอกสาร การสืบค้นถือเป็นการกำหนดข้อจำกัดในการเลือกเอกสารที่เกี่ยวข้อง วิธีการทั่วไปของหมวดหมู่นี้คือ โมเดลการดึงข้อมูลบูลีน ซึ่งเอกสารถูกกำหนดโดยชุดของคีย์เวิร์ด และผู้ใช้จัดเตรียมนิพจน์บูลีนของคีย์เวิร์ด เช่น ร้านรถยนต์และร้านซ่อม ชาหรือกาแฟ หรือระบบฐานข้อมูล แต่ไม่ใช่ Oracle .

ระบบการดึงข้อมูลสามารถใช้คิวรีบูลีนดังกล่าวและส่งคืนเรกคอร์ดที่ตรงตามนิพจน์บูลีน เนื่องจากความซับซ้อนในการกำหนดข้อมูลของผู้ใช้ซึ่งจำเป็นต้องใช้กับคิวรีแบบบูลีน เทคนิคการดึงข้อมูลบูลีนจึงมักใช้ได้ผลดีเมื่อผู้ใช้เข้าใจชุดเอกสารเป็นอย่างดีและสามารถกำหนดคิวรีที่ดีที่สุดด้วยวิธีนี้

การจัดอันดับเอกสาร − วิธีการจัดลำดับเอกสารใช้การสืบค้นเพื่อจัดอันดับระเบียนทั้งหมดตามลำดับการบังคับใช้ สำหรับผู้ใช้ทั่วไปและแบบสอบถามเชิงสำรวจ เทคนิคเหล่านี้เหมาะสมกว่าวิธีการเลือกเอกสาร ระบบการดึงข้อมูลในปัจจุบันส่วนใหญ่แสดงรายการไฟล์ที่จัดลำดับตามคำค้นหาของผู้ใช้

มีวิธีการจัดอันดับหลายวิธีโดยพิจารณาจากฐานตัวเลขจำนวนมาก เช่น พีชคณิต ตรรกศาสตร์ ความน่าจะเป็น และสถิติ สัญชาตญาณทั่วไปที่อยู่เบื้องหลังเทคนิคทั้งหมดนี้คือสามารถเชื่อมต่อคำสำคัญในคิวรีกับคำที่อยู่ในเรกคอร์ดและให้คะแนนแต่ละเร็กคอร์ดขึ้นอยู่กับว่าตรงกับคิวรีมากเพียงใด

วัตถุประสงค์คือเพื่อประมาณระดับความเกี่ยวข้องของบันทึกด้วยคะแนนที่คำนวณโดยขึ้นอยู่กับข้อมูล ซึ่งรวมถึงความถี่ของคำในเอกสารและทั้งชุด เป็นการยากที่จะระบุระดับความเกี่ยวข้องระหว่างชุดของคำหลักได้อย่างแม่นยำ ตัวอย่างเช่น การหาระยะห่างระหว่างการทำเหมืองข้อมูลและการวิเคราะห์ข้อมูลเป็นเรื่องยาก

แนวทางที่นิยมมากที่สุดของวิธีนี้คือโมเดลสเปซเวกเตอร์ แนวคิดพื้นฐานของแบบจำลองพื้นที่เวกเตอร์มีดังต่อไปนี้:สามารถแสดงเอกสารและแบบสอบถามทั้งคู่เป็นเวกเตอร์ในพื้นที่มิติสูงที่สอดคล้องกับคำหลักทั้งหมด และใช้การวัดความคล้ายคลึงที่เหมาะสมเพื่อประเมินความคล้ายคลึงกันระหว่างเวกเตอร์แบบสอบถามและเวกเตอร์บันทึก ค่าความคล้ายคลึงกันสามารถนำมาใช้สำหรับการจัดลำดับเอกสารได้