การวัดความคล้ายคลึงกันให้กรอบการทำงานที่ใช้การตัดสินใจเกี่ยวกับการทำเหมืองข้อมูลบางส่วน งานต่างๆ ซึ่งรวมถึงการจัดประเภทและการจัดกลุ่มมักพิจารณาถึงการมีอยู่ของการวัดความคล้ายคลึงกัน ในขณะที่เขตข้อมูลที่มีเทคนิคไม่ดีในการประเมินความคล้ายคลึงกันมักจะพบว่าการค้นหาข้อมูลเป็นหน้าที่ที่ยุ่งยาก
มีการใช้มาตรการความคล้ายคลึงกันหลายประการดังนี้ −
การดึงข้อมูล − เป้าหมายของระบบการดึงข้อมูล (IR) คือการตอบสนองความต้องการของผู้ใช้ ในอีกแง่หนึ่ง โดยทั่วไปความต้องการจะปรากฏในรูปแบบของข้อความค้นหาสั้นๆ ที่แนะนำในกล่องข้อความของเครื่องมือค้นหาออนไลน์ โดยทั่วไป ระบบ IR จะไม่ตอบคำถามโดยตรง แต่จะแสดงรายการจัดอันดับที่พิจารณาว่าเกี่ยวข้องกับการสืบค้นนั้นด้วยการวัดความคล้ายคลึงกัน
เนื่องจากการวัดความคล้ายคลึงกันมีผลต่อการจัดกลุ่มและการจัดประเภทข้อมูลที่เกี่ยวกับการสืบค้น ผู้ใช้มักจะพบการตีความใหม่เกี่ยวกับความต้องการข้อมูลของตนที่อาจเป็นประโยชน์หรือไม่มีประโยชน์ต่อพวกเขาเมื่อทำการจัดรูปแบบการสืบค้นใหม่
ในกรณีที่คิวรีเป็นเร็กคอร์ดจากชุดเริ่มต้น สามารถใช้การวัดความคล้ายคลึงกันเพื่อจัดกลุ่มและจัดประเภทเร็กคอร์ดภายในคอลเลกชัน กล่าวโดยย่อ การวัดความคล้ายคลึงกันสามารถแทรกสถาปัตยกรรมพื้นฐานไปยังชุดที่ไม่มีโครงสร้างก่อนหน้านี้ได้
แรงจูงใจ
การวัดความคล้ายคลึงกันที่ใช้ในระบบ IR สามารถบิดเบือนการรับรู้ของชุดข้อมูลทั้งหมดได้ ตัวอย่างเช่น หากผู้ใช้พิมพ์ข้อความค้นหาลงในเครื่องมือค้นหาและไม่พบคำตอบที่น่าพอใจในหน้าเว็บที่มีการส่งคืน 10 อันดับแรก ผู้ใช้มักจะพยายามจัดรูปแบบข้อความค้นหานี้ใหม่ครั้งหรือสองครั้ง
มาตรการความคล้ายคลึงแบบคลาสสิก
การวัดความคล้ายคลึงกันถูกกำหนดให้เป็นการทำแผนที่จากคู่ของทูเพิลขนาด k กับจำนวนสเกลาร์ ตามแบบแผน การวัดความคล้ายคลึงทั้งหมดต้องจับคู่กับช่วง [-1, 1] หรือ [0, 1] โดยที่คะแนนความคล้ายคลึงกัน 1 หมายถึงความคล้ายคลึงกันสูงสุด การวัดความคล้ายคลึงควรแสดงคุณลักษณะที่มูลค่าจะเพิ่มขึ้นเมื่อคุณสมบัติหลายอย่างในสองรายการที่เปรียบเทียบเพิ่มขึ้น
ลูกเต๋า
ค่าสัมประสิทธิ์ลูกเต๋าเป็นลักษณะทั่วไปของค่าเฉลี่ยฮาร์มอนิกของการวัดความแม่นยำและการเรียกคืน ระบบที่มีค่าเฉลี่ยฮาร์มอนิกสูงในทางทฤษฎีควรอยู่ใกล้กับระบบการดึงข้อมูลในอุดมคติมากกว่า เพื่อให้สามารถจัดการค่าที่มีความแม่นยำสูงในระดับการเรียกคืนที่สูงได้ ค่าเฉลี่ยฮาร์โมนิกสำหรับความแม่นยำและการเรียกคืนนั้นกำหนดโดย
$$E=\frac{2}{\frac{1}{P}+\frac{1}{R}}$$
ในขณะที่ค่าสัมประสิทธิ์ลูกเต๋าแสดงโดย
$$sim(d,d_{j})=D(A,B)=\frac{|A\cap B|}{\alpha|A|+(1-\alpha)|B|}\cong \frac {\propto \sum_{k=1}^{n}w_{kq}w_{kj}}{\propto \sum_{k=1}^{n}\mathrm{w}_{kq}^{2} +(1-\propto)\sum_{k=1}^{n}\mathrm{w}_{kj}^{2}}$$
ด้วย α ε [0, 1] สามารถแสดงว่าค่าสัมประสิทธิ์ลูกเต๋าเป็นค่าเฉลี่ยฮาร์มอนิกถ่วงน้ำหนัก ให้ α =½
คาบเกี่ยวกัน
ค่าสัมประสิทธิ์การทับซ้อนพยายามกำหนดระดับที่ชุดสองชุดทับซ้อนกัน ค่าสัมประสิทธิ์การทับซ้อนถูกเปรียบเทียบเป็น
$$sim(d,d_{j})=D(A,B)=\frac{|A\cap B|}{min(|A|,|B|)}\cong \frac{\propto \sum_ {k=1}^{n}w_{kq}w_{kj}}{\propto \sum_{k=1}^{n}\mathrm{w}_{kq}^{2}+\sum_{k =1}^{n}\mathrm{w}_{kj}^{2}}$$
ค่าสัมประสิทธิ์การทับซ้อนคำนวณโดยใช้ตัวดำเนินการสูงสุดแทนค่าต่ำสุด