Computer >> คอมพิวเตอร์ >  >> การเขียนโปรแกรม >> การเขียนโปรแกรม

วิธีการแบบกริดคืออะไร?


วิธีการจัดกลุ่มตามตารางใช้โครงสร้างข้อมูลกริดที่มีความละเอียดหลายระดับ กำหนดปริมาณพื้นที่วัตถุให้เป็นเซลล์จำนวนจำกัดที่สร้างโครงสร้างกริดซึ่งการดำเนินการทั้งหมดสำหรับการจัดกลุ่มจะถูกนำไปใช้ ประโยชน์ของวิธีการคือใช้เวลาประมวลผลที่รวดเร็ว ซึ่งโดยทั่วไปแล้วจะไม่ขึ้นกับจำนวนของออบเจ็กต์ข้อมูล ยังคงขึ้นอยู่กับหลายเซลล์ในแต่ละมิติในปริภูมิเชิงปริมาณ

ตัวอย่างของวิธีการแบบอิงตารางเกี่ยวข้องกับ STING ซึ่งสำรวจข้อมูลสถิติที่จัดเก็บไว้ในเซลล์กริด WaveCluster ซึ่งจัดกลุ่มวัตถุโดยใช้วิธีการแปลงเวฟเล็ต และ CLIQUE ซึ่งกำหนดแนวทางตามตารางและความหนาแน่นสำหรับการจัดกลุ่มในพื้นที่ข้อมูลมิติสูง .

STING คือวิธีการจัดกลุ่มแบบหลายความละเอียดตามตาราง โดยพื้นที่เชิงพื้นที่แบ่งออกเป็นเซลล์สี่เหลี่ยม โดยทั่วไปมีหลายระดับของเซลล์รูปสี่เหลี่ยมผืนผ้าดังกล่าวซึ่งสอดคล้องกับความละเอียดหลายระดับ และเซลล์เหล่านี้สร้างกลไกแบบลำดับชั้น แต่ละเซลล์ในระดับสูงจะถูกแยกออกเพื่อสร้างหลายเซลล์ที่ระดับล่างถัดไป ข้อมูลทางสถิติเกี่ยวกับแอตทริบิวต์ในแต่ละเซลล์กริด (รวมถึงค่าเฉลี่ย ค่าสูงสุด และค่าต่ำสุด) จะถูกคำนวณล่วงหน้าและจัดเก็บไว้

สามารถคำนวณพารามิเตอร์ทางสถิติของเซลล์ระดับที่สูงกว่าได้ง่ายๆ จากพารามิเตอร์ของเซลล์ระดับล่าง พารามิเตอร์เหล่านี้ประกอบด้วยค่าต่อไปนี้:พารามิเตอร์ที่ไม่ขึ้นกับแอตทริบิวต์ การนับ และพารามิเตอร์ที่ขึ้นกับแอตทริบิวต์ ค่าเฉลี่ย stdev (ค่าเบี่ยงเบนมาตรฐาน) ค่าต่ำสุด (ค่าต่ำสุด) ค่าสูงสุด (ค่าสูงสุด) และประเภทการแจกแจงที่ค่าแอตทริบิวต์ในเซลล์ติดตาม ได้แก่ ปกติ ชุดฟอร์ม เลขชี้กำลัง หรือไม่มีเลย (หากการแจกแจงเป็นแบบไม่ระบุตัวตน)

เมื่อโหลดระเบียนลงในฐานข้อมูล พารามิเตอร์จะนับ ค่าเฉลี่ย stdev ขั้นต่ำ และค่าสูงสุดของเซลล์ระดับล่างสุดจะถูกคำนวณโดยตรงจากระเบียน ผู้ใช้สามารถกำหนดค่าของการแจกแจงได้โดยผู้ใช้หากทราบประเภทการแจกแจงล่วงหน้าหรือได้มาจากการทดสอบสมมติฐานรวมถึง χ 2 ทดสอบ

ประเภทการแจกแจงของเซลล์ระดับสูงกว่าที่สามารถคำนวณได้นั้นขึ้นอยู่กับประเภทการแจกแจงส่วนใหญ่ของเซลล์ระดับล่างที่สอดคล้องกัน ร่วมกับขั้นตอนการกรองขีดจำกัด ถ้าการแจกแจงของเซลล์ระดับล่างไม่ตรงกันและปฏิเสธการทดสอบขีดจำกัด ชนิดการแจกจ่ายของเซลล์ระดับสูงจะถูกตั้งค่าเป็นไม่มี

สามารถใช้พารามิเตอร์ทางสถิติในรูปแบบจากบนลงล่างโดยใช้ตารางดังนี้ ขั้นแรก เลเยอร์ภายในสถาปัตยกรรมแบบลำดับชั้นจะถูกตัดสินใจว่าจะเริ่มขั้นตอนการตอบคำถาม โดยทั่วไปเลเยอร์นี้จะมีเซลล์จำนวนเล็กน้อย สำหรับทุกเซลล์ในเลเยอร์ปัจจุบัน เซลล์สามารถคำนวณช่วงความเชื่อมั่น (หรือช่วงความน่าจะเป็นโดยประมาณ) ที่สะท้อนถึงความเกี่ยวข้องของเซลล์กับข้อความค้นหาที่ระบุ