Computer >> คอมพิวเตอร์ >  >> การเขียนโปรแกรม >> การเขียนโปรแกรม

การวิเคราะห์การจัดกลุ่มเอกสารคืออะไร


การจัดกลุ่มเอกสารเป็นเทคนิคที่สำคัญสำหรับการจัดระเบียบไฟล์ในลักษณะที่ไม่มีผู้ดูแล เมื่อเอกสารถูกแสดงเป็นเวกเตอร์ระยะ สามารถใช้วิธีการจัดกลุ่มได้ พื้นที่เอกสารมีมิติขนาดใหญ่อย่างต่อเนื่องตั้งแต่หลายร้อยถึงหลายพัน

เนื่องจากการสาปแช่งของมิติ จึงเหมาะสมที่จะฉายภาพเอกสารเป็นสเปซย่อยที่มีมิติต่ำกว่า ซึ่งโครงสร้างทางความหมายของพื้นที่เอกสารจะชัดเจนขึ้นก่อน ในพื้นที่ความหมายมิติต่ำ สามารถใช้อัลกอริธึมการจัดกลุ่มแบบดั้งเดิมได้

การวิเคราะห์การจัดกลุ่มเอกสารมีหลายวิธีดังนี้ -

การจัดกลุ่มสเปกตรัม − วิธีการจัดกลุ่มสเปกตรัมจะทำการฝังสเปกตรัม (การลดขนาด) ลงบนข้อมูลดั้งเดิมก่อน จากนั้นจึงนำอัลกอริธึมการจัดกลุ่มแบบเดิม (เช่น ค่า k) ไปใช้กับพื้นที่เอกสารที่ลดลง

มันสามารถทำงานบนสเปกตรัมคลัสเตอร์แสดงความสามารถในการจัดการข้อมูลที่ไม่เชิงเส้นสูง (พื้นที่ข้อมูลมีความโค้งสูงในทุกพื้นที่) ลิงก์ที่มีประสิทธิภาพไปยังเรขาคณิตเชิงอนุพันธ์ทำให้สามารถค้นหาสถาปัตยกรรมที่หลากหลายของพื้นที่ไฟล์ได้

ข้อจำกัดของอัลกอริธึมการจัดกลุ่มสเปกตรัมเหล่านี้สามารถใช้การฝังแบบไม่เชิงเส้น (การลดขนาด) ซึ่งแสดงเฉพาะในข้อมูล "การฝึกอบรม" พวกเขาต้องใช้จุดข้อมูลบางส่วนเพื่อทำความเข้าใจการฝัง เมื่อชุดข้อมูลมีขนาดใหญ่ การทำความเข้าใจการฝังดังกล่าวจะมีค่าใช้จ่ายสูง ซึ่งจะจำกัดซอฟต์แวร์ของการจัดกลุ่มสเปกตรัมในชุดข้อมูลสูง

รุ่นผสม − วิธีการจัดกลุ่มแบบจำลองผสมจะจำลองข้อมูลข้อความด้วยแบบจำลองผสม ซึ่งมักเกี่ยวข้องกับแบบจำลององค์ประกอบพหุนาม การทำคลัสเตอร์เกี่ยวข้องกับสองขั้นตอนดังนี้ -

มันสามารถประมาณค่าพารามิเตอร์แบบจำลองตามข้อมูลข้อความและความรู้เพิ่มเติมใด ๆ ก่อนหน้านี้

สามารถอนุมานคลัสเตอร์ตามพารามิเตอร์แบบจำลองโดยประมาณ ขึ้นอยู่กับวิธีการกำหนดแบบจำลองผสม วิธีการเหล่านี้สามารถจัดกลุ่มคำและเอกสารได้ในเวลาเดียวกัน

การวิเคราะห์ความหมายแฝงที่น่าจะเป็นไปได้ (PLSA) และการจัดสรร Dirichlet แฝง (LDA) เป็นสองกรณีของแนวทางดังกล่าว ประโยชน์ของวิธีการจัดกลุ่มคือ ออกแบบคลัสเตอร์ให้รองรับการวิเคราะห์ไฟล์เปรียบเทียบได้

วิธีการ Latent Semantic Indexing (LSI) และ Locality Preserving Indexing (LPI) คือวิธีการลดขนาดเชิงเส้น ใช้เพื่อให้ได้เวกเตอร์การแปลง (ฟังก์ชันฝังตัว) ใน LSI และ LPI ฟังก์ชันการฝังดังกล่าวจะแสดงทุกที่ ดังนั้นจึงสามารถใช้องค์ประกอบของข้อมูลเพื่อทำความเข้าใจฟังก์ชันการฝังและฝังข้อมูลบางส่วนไปยังพื้นที่มิติต่ำได้

จุดมุ่งหมายของ LSI คือการค้นหาการประมาณพื้นที่ย่อยที่ดีที่สุดกับพื้นที่เอกสารต้นฉบับในแง่ของการลดข้อผิดพลาดในการสร้างใหม่ทั่วโลก กล่าวอีกนัยหนึ่ง LSI พยายามที่จะเปิดเผยคุณลักษณะที่เป็นตัวแทนมากที่สุด มากกว่าคุณลักษณะที่เลือกปฏิบัติมากที่สุดสำหรับการนำเสนอเอกสาร ดังนั้น LSI อาจไม่เหมาะสมในการเลือกปฏิบัติเอกสารที่มีความหมายต่างกัน ซึ่งเป็นเป้าหมายสูงสุดของการจัดกลุ่ม