การจัดประเภทเอกสารอัตโนมัติเป็นบริการขุดข้อความที่จำเป็น เนื่องจากมีไฟล์ออนไลน์จำนวนมาก การจัดระเบียบบันทึกดังกล่าวเป็นคลาสโดยอัตโนมัติจึงเป็นสิ่งสำคัญ เพื่อรองรับการดึงเอกสารและการวิเคราะห์ที่ต่อเนื่องกัน
การจัดประเภทเอกสารถูกนำมาใช้ในการติดแท็กหัวข้ออัตโนมัติ (เช่น การกำหนดป้ายกำกับให้กับเอกสาร) การสร้างไดเรกทอรีหัวข้อ และการระบุรูปแบบการเขียนเอกสาร และการกำหนดเป้าหมายของไฮเปอร์ลิงก์ที่เกี่ยวข้องกับชุดเอกสาร
ขั้นตอนทั่วไปมีดังนี้ − ขั้นแรก ให้นำกลุ่มของไฟล์ที่จัดประเภทไว้ล่วงหน้ามาเป็นชุดการฝึก มีการวิเคราะห์ชุดฝึกอบรมเพื่อเปลี่ยนรูปแบบการจัดหมวดหมู่ รูปแบบการจัดหมวดหมู่ดังกล่าวจำเป็นต้องได้รับการขัดเกลาด้วยการทดสอบ ohase สามารถใช้รูปแบบการจัดประเภทที่ได้รับมานี้สำหรับการจัดประเภทไฟล์ออนไลน์หลายไฟล์
เฟสนี้เกิดขึ้นเหมือนกับการจัดประเภทของเร็กคอร์ดเชิงสัมพันธ์ ข้อมูลเชิงสัมพันธ์มีโครงสร้างที่ดี เช่น ทุกทูเพิลอธิบายโดยกลุ่มคู่ค่าแอตทริบิวต์
ตัวอย่างเช่น ในทูเพิล {sunny, warm, dry, not windy, play tennis} ค่า "sunny" เทียบเท่ากับแนวโน้มสภาพอากาศของแอตทริบิวต์ "warm" เทียบเท่ากับอุณหภูมิแอตทริบิวต์ ฯลฯ
การวิเคราะห์การจัดหมวดหมู่จะกำหนดว่าคู่ของค่าแอตทริบิวต์กลุ่มใดมีอำนาจในการเลือกปฏิบัติสูงสุดในการตัดสินใจว่าบุคคลจะเล่นเทนนิสหรือไม่ ในอีกแง่หนึ่ง ฐานข้อมูลเอกสารไม่มีโครงสร้างตามคู่ของค่าแอตทริบิวต์
เป็นชุดของคีย์เวิร์ดที่เกี่ยวข้องกับชุดของเอกสารที่ไม่ได้จัดเป็นชุดของแอตทริบิวต์หรือมิติคงที่ หากเราดูแต่ละคำสำคัญ คำหรือคุณลักษณะที่แตกต่างกันในเอกสารเป็นมิติ อาจมีหลายพันมิติในชุดเอกสาร ดังนั้นจึงมักใช้วิธีการจัดประเภทข้อมูลเชิงสัมพันธ์ ซึ่งรวมถึงการวิเคราะห์แผนผังการตัดสินใจ จึงไม่มีประสิทธิภาพในการจำแนกฐานข้อมูลเอกสาร
ตามโมเดล vector-space ไฟล์สองไฟล์จะเหมือนกันหากใช้ไฟล์เวกเตอร์ร่วมกัน โมเดลนี้กระตุ้นการสร้างตัวแยกประเภท k-nearest-neighbor โดยยึดตามสัญชาตญาณว่าเอกสารที่คล้ายกันนั้นคาดว่าจะได้รับมอบหมายให้เป็นป้ายกำกับระดับเดียวกัน
สามารถทำดัชนีเอกสารการฝึกอบรมทั้งหมดได้โดยง่าย โดยแต่ละรายการจะเชื่อมโยงกับป้ายกำกับคลาสที่เกี่ยวข้อง เมื่อส่งเอกสารทดสอบ เราสามารถถือว่ามันเป็นแบบสอบถามไปยังระบบ IR และดึงจากเอกสารชุดการฝึกอบรม k ที่คล้ายกับแบบสอบถามมากที่สุด โดยที่ k เป็นค่าคงที่ที่ปรับได้
คลาสเลเบลของไฟล์ทดสอบสามารถตัดสินใจได้ขึ้นอยู่กับการกระจายคลาสเลเบลของเพื่อนบ้านที่ใกล้ที่สุด k การกระจายป้ายกำกับระดับดังกล่าวยังสามารถปรับปรุงได้ เช่น ตามการนับแบบถ่วงน้ำหนักแทนการนับดิบ หรือการตั้งค่าส่วนหนึ่งของเอกสารที่ติดป้ายกำกับไว้สำหรับการตรวจสอบ