Computer >> คอมพิวเตอร์ >  >> การเขียนโปรแกรม >> การเขียนโปรแกรม

การวัดในเหมืองข้อมูลมีการคำนวณอย่างไร


การวัดสามารถจัดเป็นสามองค์ประกอบ ได้แก่ การแจกแจง พีชคณิต และองค์รวม ขึ้นอยู่กับประเภทของฟังก์ชันรวมที่ใช้

จัดจำหน่าย − ฟังก์ชันรวมจะถูกกระจายหากสามารถคำนวณในลักษณะที่ส่งมอบได้ดังนี้ พิจารณาว่าข้อมูลเป็นอิสระจากกันเป็น n ชุด มันสามารถใช้บริการกับแต่ละพาร์ติชั่น ส่งผลให้มีค่ารวม n ค่า

หากผลลัพธ์เปลี่ยนไปโดยใช้ฟังก์ชันเป็นค่ารวม n ค่าเดียวกับที่ได้รับจากการใช้ฟังก์ชันกับชุดข้อมูลทั้งหมด (โดยไม่มีการแบ่งพาร์ติชัน) ฟังก์ชันสามารถประเมินได้ด้วยวิธีแบบกระจาย

ตัวอย่างเช่น สามารถคำนวณ count() สำหรับ data cube โดยแบ่งพาร์ติชั่นคิวบ์ออกเป็นกลุ่มย่อยก่อน คำนวณ count() สำหรับทุก subcube แล้วรวมจำนวนที่ได้มาสำหรับ subcubes แต่ละอัน ดังนั้น count() จึงเป็นบริการรวมแบบกระจาย

การวัดจะเป็นแบบกระจาย ถ้าได้มาจากการใช้บริการรวมแบบกระจาย การวัดการกระจายสามารถคำนวณได้อย่างมีประสิทธิภาพเพราะสามารถคำนวณได้ด้วยวิธีการกระจาย

พีชคณิต − ฟังก์ชันการรวมเป็นพีชคณิตหากสามารถคำนวณได้โดยบริการพีชคณิตที่มีอาร์กิวเมนต์ M (โดยที่ M เป็นจำนวนเต็มบวกที่มีขอบเขต) ซึ่งแต่ละฟังก์ชันได้มาจากการใช้บริการรวมแบบกระจาย

ตัวอย่างเช่น avg() (ค่าเฉลี่ย) สามารถคำนวณได้โดย sum()/count() โดยที่ทั้ง sum() และ count() เป็นบริการรวมแบบกระจาย ในทำนองเดียวกัน สามารถแสดงได้ว่า min N() และ max N() (ซึ่งพบ N ค่าต่ำสุดและ N สูงสุดตามลำดับในชุดที่กำหนด) และค่าเบี่ยงเบนมาตรฐาน () เป็นบริการรวมเชิงพีชคณิต การวัดเป็นพีชคณิตหากได้มาจากการใช้บริการรวมเกี่ยวกับพีชคณิต

แบบองค์รวม − ฟังก์ชันการรวมเป็นแบบองค์รวม หากไม่มีขอบเขตคงที่บนขนาดหน่วยเก็บข้อมูลที่จำเป็นในการกำหนด subaggregate หากไม่มีฟังก์ชันพีชคณิตต่อด้วยอาร์กิวเมนต์ M (โดยที่ M คือค่าคงที่) ที่อธิบายการคำนวณ

ตัวอย่างฟังก์ชันแบบองค์รวม เช่น ค่ามัธยฐาน () โหมด () และอันดับ () การวัดจะเป็นแบบองค์รวมหากได้มาโดยใช้ฟังก์ชันการรวมแบบองค์รวม

แอปพลิเคชัน data cube ขนาดใหญ่ส่วนใหญ่ต้องการการคำนวณที่มีประสิทธิภาพของการวัดแบบกระจายและเชิงพีชคณิต มีวิธีการที่มีประสิทธิภาพบางอย่างสำหรับสิ่งนี้ ในทางตรงกันข้าม การคำนวณการวัดแบบองค์รวมอย่างมีประสิทธิภาพนั้นซับซ้อน วิธีที่มีประสิทธิภาพในการประมาณการคำนวณของมาตรการแบบองค์รวมบางอย่างยังคงมีอยู่

ตัวอย่างเช่น แทนที่จะคำนวณค่ามัธยฐานที่แน่นอน () คุณสามารถใช้เพื่อคำนวณค่ามัธยฐานโดยประมาณสำหรับชุดข้อมูลขนาดใหญ่ ในบางกรณี วิธีการดังกล่าวก็เพียงพอที่จะเอาชนะความยากลำบากในการคำนวณมาตรการแบบองค์รวมอย่างมีประสิทธิผล