การขุดข้อความเรียกอีกอย่างว่าการวิเคราะห์ข้อความ เป็นขั้นตอนของการแปลงข้อความที่ไม่มีโครงสร้างเป็นข้อมูลที่มีโครงสร้างเพื่อการวิเคราะห์อย่างง่าย การขุดข้อความใช้การประมวลผลภาษาธรรมชาติ (NLP) ทำให้เครื่องสามารถรู้ภาษามนุษย์และประมวลผลโดยอัตโนมัติ
ถูกกำหนดให้เป็นขั้นตอนในการรับข้อมูลสำคัญจากข้อความภาษามาตรฐาน ข้อมูลบางอย่างที่สามารถสร้างผ่านข้อความ บันทึก อีเมล ไฟล์ จะถูกเขียนด้วยข้อความภาษาทั่วไป โดยทั่วไปจะใช้เพื่อวาดรูปแบบข้อมูลเชิงลึกที่เป็นประโยชน์จากข้อมูลดังกล่าว
การขุดข้อความเป็นวิธีการอัตโนมัติที่ใช้การประมวลผลภาษาธรรมชาติเพื่อให้ได้ข้อมูลเชิงลึกอันมีค่าจากข้อความที่ไม่มีโครงสร้าง มันสามารถแปลงข้อมูลเป็นข้อมูลที่อุปกรณ์สามารถเรียนรู้ การขุดข้อความทำให้วิธีการจัดประเภทข้อความโดยอัตโนมัติตามความรู้สึก หัวเรื่อง และความตั้งใจ
ในการทำเหมืองข้อมูลข้อความ จะใช้กับข้อมูลที่เป็นข้อความ สามารถอ่านและวิเคราะห์ข้อมูลที่เป็นข้อความ ในการทำเหมืองข้อความ รูปแบบจะดึงมาจากข้อมูลที่ไม่มีโครงสร้างหรือข้อความภาษาธรรมชาติ ในการทำเหมืองข้อความ อินพุตจะเป็นข้อความที่ไม่มีโครงสร้าง จากนั้นเอาต์พุตจะเป็นข้อความที่มีโครงสร้าง
การทำเหมืองข้อความประกอบด้วยชุดของเอกสารข้อความที่อยู่ในรูปแบบ pdf, doc, Docx, txt เป็นต้น หลังจากได้รับเอกสารแล้ว ใช้การประมวลผลล่วงหน้า (เปรียบเทียบกับ NLT – ข้อความภาษาธรรมชาติ) ของข้อความแล้วจึงใช้วิธีการขุดข้อความ ดังนั้นการวิเคราะห์เอกสารข้อความจึงพบความรู้ในที่สุด
มีสองวิธีที่เกี่ยวข้องเช่นการกรองและการสตรีม การกรองสามารถลบคำที่ไม่ต้องการหรือข้อมูลที่เกี่ยวข้องได้ คำสตรีมมิ่งให้รากของคำที่เกี่ยวข้อง หลังจากใช้วิธีสตรีมมิ่ง ทุกคำได้รับการออกแบบโดยโหนดรูทของมัน
การทำเหมืองข้อความเป็นพื้นที่ที่เกิดการระเบิดอย่างไม่คาดคิดในการปรับใช้แอปพลิเคชันทางธุรกิจ การขยายตัวอย่างรวดเร็วของการยอมรับเกิดขึ้นจากข้อมูลที่เพิ่มสูงขึ้นเกี่ยวกับ TM และจุดราคาที่ต่ำกว่าซึ่งเครื่องมือ TM วางจำหน่ายในปัจจุบัน
การวิเคราะห์ข้อความแบบไม่มีโครงสร้างด้วยตนเองนั้นใช้งานไม่ได้ ดังนั้นจึงมีการพัฒนาวิธีการขุดข้อความเพื่อให้กระบวนการวิเคราะห์ข้อมูลเป็นไปโดยอัตโนมัติ
วัตถุประสงค์หลักของการขุดข้อความคือการอนุญาตให้ผู้ใช้แยกบันทึกจากเนื้อหาที่เป็นข้อความและจัดการบริการต่างๆ เช่น การดึงข้อมูล การดึงข้อมูล การสรุป การจัดหมวดหมู่ (ดูแล) และการจัดกลุ่ม (ไม่ได้ดูแล) การแบ่งส่วน และการเชื่อมโยง
เหตุผลหลักหลังจากการนำ Text Mining มาใช้คือการแข่งขันที่รุนแรงมากขึ้นในอุตสาหกรรมธุรกิจ องค์กรหลายแห่งกำลังมองหาโซลูชันที่มีมูลค่าเพิ่มเพื่อเล่นกับองค์กรอื่นๆ ด้วยการเพิ่มความสมบูรณ์ในธุรกิจและการเปลี่ยนแปลงมุมมองของผู้ใช้ องค์กรต่างๆ กำลังได้รับการลงทุนมหาศาลเพื่อให้ได้โซลูชันที่สามารถวิเคราะห์ข้อมูลผู้ใช้และข้อมูลของฝ่ายตรงข้ามเพื่อปรับปรุงความสามารถในการแข่งขัน