Computer >> คอมพิวเตอร์ >  >> การเขียนโปรแกรม >> การเขียนโปรแกรม

เทคนิคสำหรับ Data Cube Computation คืออะไร?


ต่อไปนี้คือเทคนิคการเพิ่มประสิทธิภาพทั่วไปสำหรับการคำนวณลูกบาศก์ข้อมูลอย่างมีประสิทธิภาพ ซึ่งมีดังนี้ −

การจัดเรียง การแฮช และการจัดกลุ่ม − การเรียงลำดับ การแฮช และการจัดกลุ่มต้องใช้กับแอททริบิวต์มิติเพื่อจัดลำดับใหม่และคลัสเตอร์ทูเพิลที่เกี่ยวข้อง ในการคำนวณคิวบ์ การรวมจะถูกนำไปใช้กับทูเพิลที่ใช้ชุดของค่ามิติที่คล้ายคลึงกัน ดังนั้นจึงจำเป็นต้องวิเคราะห์บริการการจัดเรียง การแฮช และการจัดกลุ่มเพื่อเข้าถึงและจัดกลุ่มข้อมูลดังกล่าวเพื่อรองรับการประเมินการรวมดังกล่าว

สามารถคำนวณยอดขายรวมตามสาขา วัน และรายการ การจัดเรียง tuples หรือเซลล์ตามสาขา สามารถทำได้มีประสิทธิภาพมากกว่า โดยเรียงตามวัน จากนั้นจัดกลุ่มตามชื่อรายการ ประสิทธิภาพการทำงานของการดำเนินการดังกล่าวในชุดข้อมูลขนาดใหญ่ได้รับการพิจารณาอย่างกว้างขวางในชุมชนการวิจัยฐานข้อมูล

ประสิทธิภาพดังกล่าวสามารถดำเนินการต่อไปในการคำนวณ data cube วิธีนี้ยังสามารถใช้การเรียงลำดับที่ใช้ร่วมกันได้ต่อไป (เช่น การแบ่งปันต้นทุนการเรียงลำดับในลูกบาศก์ที่แตกต่างกันเมื่อใช้เทคนิคที่อ้างอิงจากการเรียงลำดับ) หรือเพื่อใช้งานการแบ่งพาร์ติชั่นที่ใช้ร่วมกัน (เช่น การแบ่งปันค่าใช้จ่ายในการแบ่งพาร์ติชั่นในลูกบาศก์ที่แตกต่างกันเมื่อใช้อัลกอริธึมแบบแฮช ถูกนำไปใช้)

การรวมและการแคชผลลัพธ์ระดับกลางพร้อมกัน − ในการคำนวณคิวบ์ จะมีประสิทธิภาพในการคำนวณการรวมระดับที่สูงกว่าจากการรวมระดับล่างที่คำนวณก่อนหน้านี้ แทนที่จะคำนวณจากตารางข้อเท็จจริงพื้นฐาน นอกจากนี้ การรวมพร้อมกันจากผลการคำนวณระดับกลางที่แคชไว้อาจทำให้การดำเนินการอินพุต/เอาต์พุต (I/O) ของดิสก์ราคาสูงลดลง

สามารถคำนวณยอดขายตามสาขาได้ เช่น ใช้ผลกลางที่เปลี่ยนจากการคำนวณลูกบาศก์ระดับล่างรวมทั้งยอดขายตามสาขาและวัน วิธีการนี้สามารถดำเนินการสแกนแบบตัดจำหน่ายได้ต่อไป (เช่น คำนวณลูกบาศก์หลายๆ ลูกบาศก์เท่าที่เป็นไปได้พร้อมกันเพื่อตัดค่าการอ่านดิสก์)

ผลรวมจากลูกที่เล็กที่สุดเมื่อมีลูกบาศก์ลูกหลายลูก − เมื่อมีคิวบอยด์ย่อยหลายอัน โดยทั่วไปแล้วจะมีประสิทธิภาพมากกว่าในการคำนวณลูกบาศก์พาเรนต์ที่ต้องการ (กล่าวคือ มีลักษณะทั่วไปมากกว่า) จากคิวบอยด์ย่อยที่เล็กที่สุดที่คำนวณได้ก่อนหน้านี้

สามารถสำรวจวิธีการตัดแต่งกิ่ง Apriori เพื่อคำนวณก้อนภูเขาน้ำแข็งได้อย่างมีประสิทธิภาพ − คุณสมบัติ Apriori ในบริบทของ data cube กำหนดไว้ดังนี้:หากเซลล์ที่ระบุไม่รองรับขั้นต่ำ ดังนั้นจึงไม่มีผู้สืบทอดของเซลล์ (เช่น เซลล์ที่เจาะจงมากขึ้น) ที่จะตอบสนองการสนับสนุนขั้นต่ำ คุณสมบัตินี้สามารถใช้เพื่อลดการคำนวณลูกบาศก์ภูเขาน้ำแข็งได้มาก

คำอธิบายของก้อนภูเขาน้ำแข็งรวมถึงสภาพของภูเขาน้ำแข็งซึ่งเป็นข้อจำกัดในเซลล์ที่จะเกิดขึ้น เงื่อนไขทั่วไปของภูเขาน้ำแข็งคือ เซลล์ควรเป็นไปตามเกณฑ์การสนับสนุนขั้นต่ำ ซึ่งรวมถึงจำนวนหรือผลรวมขั้นต่ำ ในระยะนี้ สามารถใช้พร็อพเพอร์ตี้ Apriori เพื่อย่นระยะเวลาการตรวจสอบลูกหลานของเซลล์ได้