Computer >> คอมพิวเตอร์ >  >> การเขียนโปรแกรม >> การเขียนโปรแกรม

กลยุทธ์สำหรับการคำนวณลูกบาศก์คืออะไร?


มีเทคนิคการเพิ่มประสิทธิภาพทั่วไปต่อไปนี้สำหรับการคำนวณก้อนข้อมูลอย่างมีประสิทธิภาพซึ่งมีดังต่อไปนี้ −

  • การจัดเรียง การแฮช และการจัดกลุ่ม − การเรียงลำดับ การแฮช และการจัดกลุ่มควรใช้กับแอททริบิวต์มิติเพื่อจัดลำดับใหม่และคลัสเตอร์ทูเพิลที่เกี่ยวข้อง ในการคำนวณคิวบ์ การรวมจะถูกนำไปใช้กับทูเพิล (หรือเซลล์) ที่ใช้ชุดของค่ามิติที่คล้ายคลึงกัน ดังนั้นจึงเป็นสิ่งสำคัญในการสำรวจบริการการจัดเรียง การแฮช และการจัดกลุ่มเพื่อเข้าถึงและจัดกลุ่มข้อมูลดังกล่าวเพื่อส่งเสริมการคำนวณของการรวมดังกล่าว

    ตัวอย่างเช่น สามารถประเมินยอดขายทั้งหมดตามสาขา วัน และรายการ ซึ่งจะมีประสิทธิภาพมากกว่าในการจัดเรียง tuples หรือเซลล์ตามสาขา และตามวัน แล้วจัดกลุ่มตามชื่อรายการ การใช้งานอย่างมีประสิทธิภาพของการดำเนินการดังกล่าวในชุดข้อมูลขนาดใหญ่ได้รับการคำนวณอย่างกว้างขวางในชุมชนการวิจัยฐานข้อมูล การใช้งานดังกล่าวสามารถคำนวณเป็นการคำนวณคิวบ์ข้อมูลได้

  • การรวมและแคชผลลัพธ์ขั้นกลางพร้อมกัน − ในการคำนวณคิวบ์ การคำนวณการรวมระดับที่สูงกว่าจากการรวมระดับล่างที่คำนวณไว้ก่อนหน้านั้นเพียงพอแล้ว แทนที่จะคำนวณจากตารางข้อเท็จจริงพื้นฐาน นอกจากนี้ การรวมพร้อมกันจากผลการคำนวณระดับกลางที่แคชไว้สามารถนำไปสู่การลดค่าใช้จ่ายของการดำเนินการ I/O ของดิสก์ได้

    ตัวอย่างเช่น สามารถคำนวณยอดขายตามสาขา หรือสามารถใช้ผลลัพธ์ขั้นกลางที่เปลี่ยนจากการคำนวณลูกบาศก์ระดับล่าง รวมถึงยอดขายตามสาขาและวัน วิธีนี้สามารถขยายออกไปเพื่อใช้การสแกนแบบตัดจำหน่าย (เช่น คำนวณลูกบาศก์ให้ได้มากที่สุดพร้อมกันเพื่อตัดค่าการอ่านดิสก์)

  • ผลรวมจากลูกที่เล็กที่สุด เมื่อมีลูกบาศก์ลูกหลายลูก − เมื่อมีคิวบอยด์ย่อยหลายลูกบาศก์ โดยทั่วไปจะมีประสิทธิภาพมากกว่าในการประเมินลูกบาศก์ของผู้ปกครองที่ต้องการ (กล่าวคือ ให้มีลักษณะทั่วไปมากกว่า) จากลูกบาศก์ย่อยที่คำนวณได้ก่อนหน้านี้ที่เล็กที่สุด

    ตัวอย่างเช่น สามารถคำนวณลูกบาศก์การขาย CBranch เมื่อมีลูกบาศก์ที่คำนวณไว้ก่อนหน้านี้สองอัน C{Branch, Year} และ C{สาขา รายการ} จะมีประสิทธิภาพในการคำนวณ CBranch จากเดิมมากกว่าหลังหากมีรายการที่แตกต่างกันหลายรายการมากกว่าปีที่แตกต่างกัน

  • สามารถสำรวจวิธีการตัดแต่งกิ่ง Apriori เพื่อคำนวณก้อนภูเขาน้ำแข็งได้อย่างมีประสิทธิภาพ − คุณสมบัติ Apriori ในบริบทของ data cube ระบุดังนี้:หากเซลล์ที่ระบุไม่ตรงตามการสนับสนุนขั้นต่ำ จะไม่มีเซลล์ที่สืบทอด (เช่น เวอร์ชันที่ใช้งานได้จริงหรือแม่นยำกว่า) ที่จะรองรับการสนับสนุนขั้นต่ำเช่นกัน สามารถใช้คุณสมบัตินี้เพื่อลดการคำนวณก้อนภูเขาน้ำแข็งได้อย่างมาก

    ข้อมูลจำเพาะของก้อนภูเขาน้ำแข็งนั้นรวมถึงสภาพของภูเขาน้ำแข็งซึ่งเป็นข้อจำกัดในเซลล์ที่จะเกิดขึ้น เงื่อนไขทั่วไปของภูเขาน้ำแข็งคือ เซลล์ควรเป็นไปตามเกณฑ์การสนับสนุนขั้นต่ำ รวมถึงการนับหรือผลรวมขั้นต่ำ ในกรณีนี้ สามารถใช้พร็อพเพอร์ตี้ Apriori เพื่อย่นระยะเวลาการสำรวจลูกหลานของเซลล์ได้