Computer >> คอมพิวเตอร์ >  >> การเขียนโปรแกรม >> การเขียนโปรแกรม

ตัวแปรสเกลตามช่วงเวลาคืออะไร


ตัวแปรสเกลตามช่วงเวลาเป็นข้อมูลต่อเนื่องของสเกลเชิงเส้นโดยประมาณ ตัวอย่าง เช่น น้ำหนักและส่วนสูง พิกัดละติจูดและลองจิจูด (เช่น เมื่อจัดกลุ่มบ้าน) และอุณหภูมิสภาพอากาศ หน่วยวัดที่ใช้สามารถส่งผลต่อการวิเคราะห์การจัดกลุ่มได้

ตัวอย่างเช่น การเปลี่ยนหน่วยข้อมูลจากเมตรเป็นนิ้วสำหรับความสูง หรือจากกิโลกรัมเป็นปอนด์สำหรับน้ำหนัก อาจนำไปสู่โครงสร้างคลัสเตอร์หลายแบบ โดยทั่วไป การกำหนดตัวแปรในหน่วยที่เล็กกว่าจะนำไปสู่ช่วงที่สูงกว่าสำหรับตัวแปรนั้น ดังนั้นจึงส่งผลต่อสถาปัตยกรรมคลัสเตอร์ที่เป็นผลลัพธ์มากขึ้น

สามารถป้องกันการพึ่งพาการเลือกหน่วยข้อมูล ข้อมูลต้องมีมาตรฐาน การวัดมาตรฐานจะพยายามให้ตัวแปรทั้งหมดมีน้ำหนักเท่ากัน สิ่งนี้มีประโยชน์อย่างยิ่งเมื่อไม่มีความรู้เกี่ยวกับข้อมูลมาก่อน แต่ในบางแอปพลิเคชัน ผู้ใช้สามารถจงใจให้น้ำหนักกับชุดตัวแปรเฉพาะมากกว่าชุดอื่นโดยเจตนา ตัวอย่างเช่น เมื่อจัดกลุ่มผู้เข้าแข่งขันบาสเกตบอล อาจต้องการให้น้ำหนักส่วนสูงเพิ่มขึ้น

ข้อมูลสามารถกำหนดมาตรฐานได้ ทางเลือกหนึ่งคือการปรับเปลี่ยนข้อมูลเดิมให้เป็นหน่วยตัวแปรน้อย จากการวัดสำหรับตัวแปร f สามารถทำได้ดังนี้ −

คำนวณค่าเบี่ยงเบนสัมบูรณ์เฉลี่ย sf

$$\mathrm{s_{f}\:=\:\frac{1}{n}(|x_{1f}-m_{f}|+|x_{2f}-m_{f}|+\cdot\ cdot\cdot+|x_{nf}-m_{f}|)}$$

โดยที่ x1f … xnf คือ n หน่วยวัดของ f และ mf คือค่าเฉลี่ยของ f นั่นคือ $\mathrm{m_{f}\:=\:\frac{1}{n}(|x_{1f}|+|x_{2f}|+\cdot\cdot \cdot+|x_{nf}|)}$

คำนวณการวัดมาตรฐานหรือ z-score -

$$\mathrm{z_{if}\:=\:\frac{x_{if}-m_{f}}{s_{f}}}$$

ค่าเบี่ยงเบนสัมบูรณ์เฉลี่ย sf มีค่าผิดปกติมากกว่าค่าเบี่ยงเบนมาตรฐาน $\mathrm{\sigma_{f}}$ เมื่อคำนวณค่าเบี่ยงเบนสัมบูรณ์เฉลี่ย ความเบี่ยงเบนจากค่าเฉลี่ย $\mathrm{(|x_{1f}-m_{f}|)}$ จะไม่ยกกำลังสอง

ดังนั้น ผลกระทบของค่าผิดปกติจะลดลง มีการวัดการกระจายที่มีประสิทธิภาพ รวมถึงการเบี่ยงเบนสัมบูรณ์มัธยฐาน ประโยชน์ของการใช้ค่าเบี่ยงเบนสัมบูรณ์เฉลี่ยคือค่า z ของค่าผิดปกตินั้นไม่ได้น้อยเกินไป ดังนั้น ค่าผิดปกติจึงยังคงตรวจพบได้

มาตรฐานอาจมีประโยชน์หรือไม่มีประโยชน์ในแอปพลิเคชันเฉพาะ ดังนั้นการเลือกว่าจะใช้มาตรฐานหรือไม่และอย่างไรจะต้องเป็นของผู้ใช้ หลังจากการทำให้เป็นมาตรฐาน หรือไม่มีการกำหนดมาตรฐานในการใช้งานเฉพาะ ความแตกต่าง (หรือความคล้ายคลึงกัน) ระหว่างอ็อบเจ็กต์ที่กำหนดโดยตัวแปรสเกลตามช่วงเวลา โดยทั่วไปจะคำนวณตามระยะห่างระหว่างอ็อบเจ็กต์แต่ละกลุ่ม

การวัดระยะทางที่มีชื่อเสียงคือระยะทางแบบยุคลิดซึ่งแสดงเป็น

$$\mathrm{d(i, j)=\sqrt{(X_{i1}-X_{j1}})^2+{(X_{i2}-X_{j2}})^2+...+ {(X_{in}-X_{jn}})^2}$$

โดยที่ i =(xi1 , xi2 , … xใน ) และ j =(xj1 , xj2 , … xjn ) เป็นวัตถุข้อมูลสองมิติ เมตริกที่รู้จักกันดีอีกอย่างหนึ่งคือระยะทางแมนฮัตตัน (หรือช่วงตึกของเมือง) ซึ่งอธิบายเป็น

$$\mathrm{d(i, j)=|X_{i1}-X_{j1}|+ |(X_{i2}-X_{j2}|+...+|(X_{in}-X_{) jn}|}$$

ทั้งระยะทางแบบยุคลิดและระยะทางแมนฮัตตันเป็นไปตามข้อกำหนดด้านตัวเลขของฟังก์ชันระยะทางดังต่อไปนี้ -

  • d(i, j) ≥ 0:ระยะทางเป็นจำนวนไม่ติดลบ

  • d(i, i) =0:ระยะห่างของวัตถุกับตัวมันเองคือ 0

  • d(i, j) =d(j, i):ระยะทางเป็นฟังก์ชันสมมาตร

  • d(i, j) ≤ d(i, h)+d(h, j):มันเคลื่อนตรงจากวัตถุ i ไปยังวัตถุ j ในอวกาศ ไม่เกินการเบี่ยงเหนือวัตถุอื่น h (อสมการสามเหลี่ยม)