Computer >> คอมพิวเตอร์ >  >> การเขียนโปรแกรม >> การเขียนโปรแกรม

กระบวนการของการทำเหมืองข้อความคืออะไร?


การขุดข้อความเรียกอีกอย่างว่าการวิเคราะห์ข้อความ เป็นกระบวนการแปลงข้อความที่ไม่มีโครงสร้างเป็นข้อมูลที่มีโครงสร้างเพื่อให้วิเคราะห์ได้ง่าย การทำเหมืองข้อความต้องใช้การประมวลผลภาษาธรรมชาติ (NLP) ทำให้อุปกรณ์สามารถเรียนรู้ภาษามนุษย์และประมวลผลได้โดยอัตโนมัติ

ถูกกำหนดให้เป็นกระบวนการดึงข้อมูลที่จำเป็นจากข้อความภาษามาตรฐาน ข้อมูลบางอย่างที่เราสร้างผ่านข้อความ เอกสาร อีเมล ไฟล์จะถูกเขียนด้วยข้อความภาษาทั่วไป โดยทั่วไปแล้วการขุดข้อความจะใช้เพื่อดึงข้อมูลเชิงลึกหรือรูปแบบที่เป็นประโยชน์จากข้อมูลดังกล่าว

การขุดข้อความเป็นขั้นตอนอัตโนมัติที่ใช้การประมวลผลภาษาธรรมชาติเพื่อให้ได้วิสัยทัศน์อันมีค่าจากข้อความที่ไม่มีโครงสร้าง มันสามารถแปลงข้อมูลเป็นข้อมูลที่อุปกรณ์สามารถเรียนรู้ การขุดข้อความทำให้กระบวนการจัดประเภทข้อความโดยอัตโนมัติตามความรู้สึก หัวเรื่อง และความตั้งใจ

กระบวนการขุดข้อความมีขั้นตอนต่อไปนี้เพื่อดึงข้อมูลจากไฟล์ดังต่อไปนี้ -

การรวบรวมเอกสาร − ในขั้นตอนแรก เอกสารข้อความจะถูกรวบรวม ซึ่งมีอยู่ในหลายรูปแบบ เอกสารสามารถอยู่ในรูปแบบ pdf, word, html doc, css เป็นต้น

การประมวลผลเอกสารล่วงหน้า − ในกระบวนการนี้ เอกสารอินพุตที่ให้มาจะถูกประมวลผลเพื่อขจัดความซ้ำซ้อน ความไม่สอดคล้องกัน คำที่ไม่ขึ้นต่อกัน การแตกราก และไฟล์ที่เตรียมไว้สำหรับขั้นตอนต่อไป และขั้นตอนการดำเนินการมีดังนี้ -

  • การแปลงโทเค็น − เอกสารที่กำหนดจะถือเป็นสตริงและคำเดียวที่รู้จักในเอกสาร กล่าวคือ สตริงเอกสารที่กำหนดจะถูกแบ่งออกเป็นหน่วยเดียวหรือโทเค็น

  • การลบคำหยุด − ในขั้นตอนนี้ การลบคำคงที่ เช่น a, an, but, and, of, the, etc.

  • ต้นกำเนิด − ต้นกำเนิดคือชุดคำตามธรรมชาติที่มีความหมายคล้ายกัน วิธีการนี้กำหนดฐานของคำเฉพาะ วิธีการมีสองประเภทคือการผันคำกริยาและจากรากศัพท์ หนึ่งในอัลกอริธึมที่มีชื่อเสียงสำหรับการสกัดกั้นคืออัลกอริธึมของพนักงานยกกระเป๋า เช่น หากเอกสารเกี่ยวข้องกับคำเช่น ลาออก ลาออก ลาออก จะถือว่าเป็นการลาออกหลังจากใช้วิธีการแยกตัวออกจากกัน

การแปลงข้อความ − เอกสารข้อความคือชุดของคำ (คุณสมบัติ) และลักษณะที่ปรากฏ การแสดงเอกสารดังกล่าวมี 2 วิธี ได้แก่ Vector Space Model และ Bag of word

การเลือกคุณลักษณะ (การเลือกแอตทริบิวต์) − วิธีการนี้ส่งผลให้มีพื้นที่ฐานข้อมูลเหลือน้อย วิธีค้นหาน้อยที่สุดโดยนำลักษณะที่ไม่เกี่ยวข้องออกจากเอกสารอินพุต

การทำเหมืองข้อมูล/การเลือกรูปแบบ − ในกระบวนการนี้ กระบวนการขุดข้อมูลแบบเดิมจะรวมกับกระบวนการขุดข้อความ ฐานข้อมูลแบบมีโครงสร้างช่วยอำนวยความสะดวกให้กับเทคนิคการทำเหมืองข้อมูลแบบคลาสสิกซึ่งเป็นผลมาจากขั้นตอนก่อนหน้า

ประเมิน - ขั้นตอนนี้คำนวณผลลัพธ์ ผลลัพธ์ที่ได้นี้สามารถโฟกัสออกไปหรือใช้สำหรับชุดของลำดับต่อไปนี้ได้