การขุดข้อความเรียกอีกอย่างว่าการวิเคราะห์ข้อความ เป็นขั้นตอนของการแปลงข้อความที่ไม่มีโครงสร้างเป็นข้อมูลที่มีโครงสร้างเพื่อการวิเคราะห์อย่างง่าย การขุดข้อความใช้การประมวลผลภาษาธรรมชาติ (NLP) ทำให้เครื่องสามารถรู้ภาษามนุษย์และประมวลผลโดยอัตโนมัติ
การขุดข้อความเป็นกระบวนการอัตโนมัติที่ใช้การประมวลผลภาษาธรรมชาติเพื่อดึงข้อมูลเชิงลึกอันมีค่าจากข้อความที่ไม่มีโครงสร้าง มันสามารถแปลงข้อมูลเป็นข้อมูลที่อุปกรณ์สามารถเข้าใจ การขุดข้อความทำให้ขั้นตอนการกำหนดข้อความโดยอัตโนมัติตามความรู้สึก หัวข้อ และความตั้งใจ
เทคนิคการทำเหมืองข้อความมีดังต่อไปนี้ -
การดึงข้อมูล − การดึงข้อมูลเป็นขั้นตอนแรกของการวิเคราะห์ข้อความที่ไม่มีโครงสร้าง เป็นบริการดึงข้อมูลที่มีโครงสร้างโดยอัตโนมัติจากเอกสารที่ไม่มีโครงสร้างและกึ่งโครงสร้างที่อุปกรณ์อ่านได้
สรุป − กระบวนการนี้มีวัตถุประสงค์ของข้อความที่แม่นยำจากเอกสารข้อความจำนวนมาก การสรุปอัตโนมัติเป็นขั้นตอนของการลดเอกสารข้อความด้วยโปรแกรมคอมพิวเตอร์เพื่อให้สรุปที่ยังคงจุดที่สำคัญที่สุดของเอกสารเริ่มต้น การสรุปข้อมูลอัตโนมัติเป็นองค์ประกอบของการเรียนรู้ของเครื่องและการทำเหมืองข้อมูล
การติดตามหัวข้อ − แนวคิดของโครงสร้างการติดตามหัวข้อคือการสนับสนุนโปรไฟล์ผู้ใช้ตามการค้นหาก่อนหน้าและคาดเดาเอกสารอื่น ๆ อย่างมีประสิทธิภาพตามโปรไฟล์ผู้ใช้
การขุดข้อความเป็นพื้นที่ที่ดึงข้อมูลที่ไม่รู้จักและมีประโยชน์ก่อนหน้านี้โดยอัตโนมัติจากข้อมูลที่เป็นข้อความที่ไม่มีโครงสร้าง มีการเชื่อมต่อที่มีประสิทธิภาพกับการประมวลผลภาษาธรรมชาติ การติดตามหัวข้อเป็นหนึ่งในเทคโนโลยีที่สร้างขึ้นและสามารถใช้ในกระบวนการขุดข้อความได้
การจำแนกประเภท − เป็นกระบวนการในการค้นหาธีมหลักของไฟล์โดยแทรกข้อมูลเมตาและวิเคราะห์เอกสาร เมธอดนี้ค้นหาจำนวนคำและจากการนับนั้นจะเป็นตัวกำหนดหัวข้อของไฟล์ ในขั้นตอนนี้ เอกสารข้อความจะถูกจัดประเภทเป็นป้ายกำกับคลาสที่กำหนดไว้ล่วงหน้า
การจัดหมวดหมู่ − การจัดหมวดหมู่ข้อความเป็นงานในการกำหนดหมวดหมู่ที่กำหนดไว้ล่วงหน้าให้กับเอกสารข้อความอิสระ รองรับมุมมองแนวคิดของชุดเอกสารและมีซอฟต์แวร์ที่สำคัญในโลกแห่งความเป็นจริง
การจัดกลุ่ม − การจัดกลุ่มสามารถจัดการกับปัญหาการเรียนรู้ที่ไม่มีผู้ดูแลที่สำคัญที่สุดได้ เช่นเดียวกับปัญหาอื่นๆ ประเภทนี้ จะเกี่ยวข้องกับการค้นหาโครงสร้างในชุดข้อมูลที่ไม่มีป้ายกำกับ
การเชื่อมโยงแนวคิด − การขุดข้อความใช้เทคนิคการเชื่อมโยงแนวคิดเพื่อค้นหาเอกสารที่เกี่ยวข้อง กลไกนี้จะเรียกดูเอกสารแทนการค้นหา อำนวยความสะดวกในการเชื่อมโยงเอกสารที่เกี่ยวข้อง
การประมวลผลภาษาธรรมชาติ − ภาษาธรรมชาติไม่ใช่อะไรนอกจากภาษามนุษย์และประมวลผลด้วยภาษาคอมพิวเตอร์ ปฏิสัมพันธ์ทั้งหมดนี้เรียกว่าการประมวลผลภาษาธรรมชาติ (NLP) เป้าหมายหลักของ NLP คือการออกแบบและสร้างระบบคอมพิวเตอร์ที่จะตรวจสอบ ทำความเข้าใจ และผลิต NLP