Computer >> คอมพิวเตอร์ >  >> การเขียนโปรแกรม >> การเขียนโปรแกรม

มาตรการทางสถิติในฐานข้อมูลขนาดใหญ่คืออะไร?


ระบบฐานข้อมูลเชิงสัมพันธ์รองรับห้าฟังก์ชันการรวมในตัว เช่น count(), sum(), avg(), max() และ min() ฟังก์ชันรวมเหล่านี้สามารถใช้เป็นมาตรการพื้นฐานในการทำเหมืองข้อมูลเชิงพรรณนาของข้อมูลหลายมิติ มีการวัดทางสถิติเชิงพรรณนา 2 แบบ เช่น การวัดแนวโน้มจากส่วนกลาง และการวัดการกระจายข้อมูลที่สามารถใช้ได้อย่างมีประสิทธิภาพในฐานข้อมูลหลายมิติสูง

มาตรการของแนวโน้มศูนย์กลาง − การวัดแนวโน้มจากศูนย์กลาง เช่น ค่าเฉลี่ย ค่ามัธยฐาน โหมด และช่วงกลาง

ค่าเฉลี่ย − ค่าเฉลี่ยเลขคณิตถูกประเมินอย่างง่าย ๆ โดยการใส่ค่าทั้งหมดเข้าด้วยกันแล้วหารด้วยจำนวนค่า มันใช้ข้อมูลจากทุกค่าเดียว ให้ x1 , x2 ,... xn เป็นชุดของค่า N หรือการสังเกตเช่นเงินเดือน ค่าเฉลี่ยของชุดค่านี้คือ

$$\mathrm{X^\prime\:=\:\frac{\sum_{i=1}^N\:X_i}{N}\:=\:\frac{X_1+X_2\:\dotsm\:X_n}{N}}$$

ซึ่งสอดคล้องกับฟังก์ชันการรวมที่รวบรวม ค่าเฉลี่ย (avg()) ที่สนับสนุนในระบบฐานข้อมูลเชิงสัมพันธ์ ใน data cube หลายๆ อัน ผลรวมและจำนวนจะถูกบันทึกไว้ใน pre-computation ดังนั้นการหาค่าเฉลี่ยจึงตรงไปตรงมา

$\mathrm{average\:=\:\frac{sum}{count}}$

ค่ามัธยฐาน − มีสองวิธีในการคำนวณค่ามัธยฐาน ขึ้นอยู่กับการกระจายของค่า

ถ้า x1 , x2 , .... xn เรียงจากมากไปหาน้อยและ n เป็นเลขคี่ ดังนั้นค่ามัธยฐานคือ

$$\mathrm{\left(\frac{n+1}{2}\right)^{th}\:value}$$

เช่น 1, 4, 6, 7, 12, 14, 18

ค่ามัธยฐาน =7

เมื่อ n เป็นคู่ แล้วค่ามัธยฐานคือ

$$\mathrm{\frac{\left(\frac{n}{2}\right)^{th}value\:+\:\left(\frac{n}{2}\:+\:1\ right)^{th} value}{2}}$$

เช่น 1, 4, 6, 7, 8, 12, 14, 16.

$$\mathrm{ค่ามัธยฐาน\:=\:\frac{7+8}{2}\:=\:7.5}$$

ค่ามัธยฐานไม่ใช่การวัดแบบกระจายหรือการวัดเชิงพีชคณิต แต่เป็นการวัดแบบองค์รวม แม้ว่าจะไม่ใช่แค่การประเมินค่ามัธยฐานที่แน่นอนในฐานข้อมูลขนาดใหญ่ แต่ค่ามัธยฐานโดยประมาณก็สามารถคำนวณได้อย่างมีประสิทธิภาพ

โหมด − เป็นค่าทั่วไปในชุดของค่า การแจกแจงสามารถเป็นแบบเดี่ยว แบบสองมิติ หรือแบบหลายมิติ หากข้อมูลเป็นหมวดหมู่ (วัดจากมาตราส่วนเล็กน้อย) จะสามารถคำนวณได้เฉพาะโหมดเท่านั้น โหมดนี้ยังสามารถคำนวณด้วยข้อมูลลำดับและข้อมูลที่สูงกว่าได้ แต่ไม่เหมาะ

การวัดการกระจายของข้อมูล − ระดับที่ข้อมูลตัวเลขมีแนวโน้มที่จะแพร่กระจายเรียกว่าการกระจายตัวหรือความแปรปรวนของข้อมูล การวัดการกระจายข้อมูลที่มีความถี่สูงสุด ได้แก่ ช่วง ช่วงระหว่างควอไทล์ และอนุพันธ์มาตรฐาน

ช่วง − ช่วงจะแสดงเป็นความแตกต่างระหว่างค่าที่มากที่สุดและค่าที่น้อยที่สุดในชุดข้อมูล

$$\mathrm{Range\:=\:X_L-X_S}$$

ที่ไหน

$\mathrm{X_L\:\rightarrow\:largest value}$

$\mathrm{X_S\:\rightarrow\:smallest value}$

ควอร์ไทล์ − เปอร์เซ็นไทล์ที่พบบ่อยที่สุดนอกเหนือจากค่ามัธยฐานคือควอร์ไทล์ ควอร์ไทล์แรกที่ระบุโดย Q1 คือวันที่ 25 th เปอร์เซ็นต์ไทล์ ควอร์ไทล์ที่ 3 ระบุด้วย Q3 คือวันที่ 75 th เปอร์เซ็นต์ไทล์ ควอร์ไทล์ที่ประกอบด้วยค่ามัธยฐาน ซึ่งบ่งชี้จุดศูนย์กลาง สเปรด และรูปร่างของควอร์ไทล์เป็นการวัดอย่างง่ายของสเปรดที่ให้ช่วงที่ครอบคลุมโดยครึ่งกลางของข้อมูล สิ่งนี้เรียกว่าพิสัยระหว่างควอไทล์ (IQR) และถูกกำหนดเป็น −

$$\mathrm{IQR\:=\:Q_{3}-Q_{1}}$$

ส่วนเบี่ยงเบนมาตรฐาน − เมื่อค่าเบี่ยงเบนถูกยกกำลังสองด้วยความแปรปรวน หน่วยของการวัดจะถูกยกกำลังสองด้วย