ระยะทางเป็นวิธีที่ MBR คำนวณความคล้ายคลึงกัน สำหรับการวัดระยะทางจริง ระยะทางจากจุด A ไปยังจุด B ซึ่งระบุด้วย d(A,B) มีคุณลักษณะสี่ประการดังต่อไปนี้ −
-
ชัดเจน − ระยะห่างระหว่างจุดสองจุดถูกกำหนดอย่างต่อเนื่องและเป็นจำนวนจริงไม่ติดลบ d (A,B) ≥ 0
-
ตัวตน − ระยะทางจากจุดหนึ่งไปยังจุดหนึ่งเป็นศูนย์อย่างต่อเนื่อง ดังนั้น d (A, A) =0
-
การเปลี่ยนแปลง − ทิศทางไม่ได้สร้างความแตกต่าง ดังนั้นระยะทางจาก A ถึง B จึงใกล้เคียงกับระยะทางจาก B ถึง A:d(A,B) =d(B,A) คุณลักษณะนี้ห้ามถนนเดินรถทางเดียว เป็นต้น
-
อสมการสามเหลี่ยม − สามารถไปที่จุดกึ่งกลาง C บนวิธีจาก A ถึง B โดยไม่เคยบีบอัดระยะทาง ดังนั้น d (A,B) ≥ d(A,C) + d(C,B)
สำหรับ MBR จุดนั้นเป็นข้อมูลในฐานข้อมูลอย่างแน่นอน คำอธิบายของระยะทางนี้เป็นพื้นฐานสำหรับความคล้ายคลึงในการคำนวณ แต่ MBR ทำงานได้ดีเมื่อมีข้อจำกัดบางประการ
ตัวอย่างเช่น ฟังก์ชันระยะทางในกรณีศึกษาคำจำกัดความของเรื่องราวข่าวไม่สามารถเปลี่ยนแปลงได้ ทำให้ระยะห่างจากเรื่องข่าว ก ไปยังอีกเรื่องหนึ่ง ข ไม่เหมือนกันกับระยะทางจาก ข ไป ก อย่างต่อเนื่อง แต่การวัดความคล้ายคลึงกันนั้นมีประโยชน์สำหรับวัตถุประสงค์ในการจำแนกประเภท .
ความจริงที่ว่าระยะทางถูกกำหนดไว้อย่างดีก็หมายความว่าแต่ละข้อมูลมีเพื่อนบ้านอยู่ที่ไหนสักแห่งในฐานข้อมูล และ MBR ต้องการให้เพื่อนบ้านทำงาน คุณสมบัติการระบุตัวตนสร้างระยะทางที่สอดคล้องกับแนวคิดสัญชาตญาณว่าข้อมูลที่คล้ายคลึงกันมากที่สุดกับข้อมูลที่กำหนดคือตัวบันทึกเริ่มต้นเอง
การเปลี่ยนแปลงและความไม่เท่าเทียมกันของสามเหลี่ยมสร้างเพื่อนบ้านที่ใกล้ที่สุดในท้องถิ่นและกำหนดไว้อย่างดี กำลังแทรกข้อมูลใหม่ลงในฐานข้อมูลจะไม่นำระเบียนที่มีอยู่เข้ามาใกล้ ความคล้ายคลึงกันเป็นเรื่องที่สงวนไว้สำหรับข้อมูลเพียงสองข้อมูลในแต่ละครั้ง แม้ว่าการวัดระยะทางจะสามารถค้นหาเพื่อนบ้านที่ใกล้ที่สุดได้ถูกกำหนดไว้อย่างดี แต่ชุดของเพื่อนบ้านที่ใกล้ที่สุดก็อาจมีลักษณะพิเศษบางอย่างได้
ชุดของเพื่อนบ้านขึ้นอยู่กับว่าฟังก์ชันระยะทางข้อมูลรวมฟังก์ชันระยะห่างของพื้นที่อย่างไร อันที่จริง เพื่อนบ้านที่ใกล้ที่สุดอันดับสองที่ใช้ฟังก์ชันบวกคือเพื่อนบ้านที่อยู่ไกลที่สุดโดยใช้ระบบยุคลิด เป็นต้น โดยเมื่อเปรียบเทียบกับผลรวมหรือเมตริกปกติ เมตริกแบบยุคลิดมีอิทธิพลต่อเพื่อนบ้านโดยที่พื้นที่ทั้งหมดอยู่ใกล้กัน
ฟังก์ชันผลรวม แบบยุคลิด และการทำให้เป็นมาตรฐานยังสามารถรวมน้ำหนักได้ ดังนั้นแต่ละพื้นที่จึงมีส่วนในจำนวนที่แตกต่างกันในฟังก์ชันระยะข้อมูล โดยทั่วไป MBR จะให้ผลลัพธ์ที่ดีเมื่อตุ้มน้ำหนักบางค่าเท่ากับ 1 อย่างไรก็ตาม บางครั้งตุ้มน้ำหนักสามารถใช้เพื่อรวมความรู้เบื้องต้น ซึ่งรวมถึงสาขาเฉพาะที่สงสัยว่ามีผลกระทบอย่างมากต่อการจำแนกประเภท