Computer >> คอมพิวเตอร์ >  >> การเขียนโปรแกรม >> การเขียนโปรแกรม

STING คืออะไร?


STING ย่อมาจาก Statistical Information Grid STING เป็นวิธีการจัดกลุ่มแบบหลายความละเอียดตามตาราง ซึ่งพื้นที่เชิงพื้นที่แบ่งออกเป็นเซลล์สี่เหลี่ยม มีหลายวิธีของเซลล์รูปสี่เหลี่ยมผืนผ้าที่เทียบเท่ากับวิธีการแก้ปัญหาหลายวิธี และเซลล์เหล่านี้สร้างโครงสร้างแบบลำดับชั้น แต่ละเซลล์ในระดับสูงจะแยกออกเป็นหลายเซลล์ที่ระดับล่างถัดไป

ข้อมูลทางสถิติเกี่ยวกับแอตทริบิวต์ในแต่ละเซลล์กริด (รวมถึงค่าเฉลี่ย ค่าสูงสุด และค่าต่ำสุด) จะถูกคำนวณล่วงหน้าและจัดเก็บไว้ พารามิเตอร์ทางสถิติของเซลล์ระดับสูงกว่าสามารถคำนวณได้ง่ายๆ จากพารามิเตอร์ของเซลล์ระดับล่าง

พารามิเตอร์เหล่านี้ประกอบด้วยค่าต่อไปนี้ - พารามิเตอร์ที่ไม่ขึ้นกับแอตทริบิวต์ การนับ และพารามิเตอร์ที่ขึ้นกับแอตทริบิวต์ ค่าเฉลี่ย stdev (ค่าเบี่ยงเบนมาตรฐาน) ค่าต่ำสุด (ค่าต่ำสุด) ค่าสูงสุด (ค่าสูงสุด) และประเภทของการแจกแจงที่ค่าแอททริบิวต์ในเซลล์ตามมา ซึ่งรวมถึงปกติ ชุดฟอร์ม เลขชี้กำลัง หรือไม่มีเลย (หากการแจกแจงเป็นแบบนิรนาม)

เมื่อโหลดเร็กคอร์ดลงในฐานข้อมูล พารามิเตอร์นับ ค่าเฉลี่ย stdev ต่ำสุด และสูงสุด ของเซลล์ระดับล่างสุดจะถูกคำนวณโดยตรงจากเร็กคอร์ด ค่าของการกระจายสามารถกำหนดได้โดยผู้ใช้หากทราบประเภทการแจกแจงล่วงหน้าหรือได้มาจากการทดสอบสมมติฐานรวมถึง χ 2 ทดสอบ

ประเภทของการกระจายของเซลล์ระดับที่ใหญ่กว่าที่สามารถประเมินได้โดยยึดตามประเภทการกระจายจำนวนมากของเซลล์ระดับล่างที่เทียบเท่ากัน ร่วมกับขั้นตอนการกรองเกณฑ์ ถ้าการแจกแจงของเซลล์ระดับล่างไม่ตรงกันและปฏิเสธการทดสอบขีดจำกัด ชนิดการแจกจ่ายของเซลล์ระดับสูงจะถูกตั้งค่าเป็นไม่มี

วิธีการจัดกลุ่มตามตารางใช้โครงสร้างข้อมูลกริดที่มีความละเอียดหลายระดับ โดยจะวัดปริมาณพื้นที่วัตถุออกเป็นหลายเซลล์ที่สร้างโครงสร้างกริดซึ่งมีการดำเนินการบางอย่างสำหรับการจัดกลุ่ม ประโยชน์ของวิธีนี้คือเวลาในการประมวลผลที่รวดเร็ว ซึ่งโดยทั่วไปแล้วจะไม่ขึ้นกับจำนวนของออบเจ็กต์ข้อมูล ยังคงขึ้นอยู่กับหลายเซลล์ในแต่ละมิติในพื้นที่ควอนไทซ์

ตัวอย่างของวิธีการแบบอิงตารางเกี่ยวข้องกับ STING ซึ่งสำรวจข้อมูลทางสถิติที่จัดเก็บไว้ในเซลล์กริด WaveCluster ซึ่งจัดกลุ่มวัตถุโดยใช้วิธีการแปลงเวฟเล็ต และ CLIQUE ซึ่งกำหนดวิธีการตามตารางและความหนาแน่นสำหรับการจัดกลุ่มในระดับสูง พื้นที่ข้อมูลมิติ

ข้อดีของแนวทางนี้คือแนวทางที่ไม่ขึ้นกับคิวรีเนื่องจากข้อมูลทางสถิติมีอยู่อย่างอิสระจากการสืบค้น เป็นคำอธิบายปกติของข้อมูลในแต่ละเซลล์กริด ซึ่งสามารถใช้ในการรองรับการตอบแบบสอบถามจำนวนมาก ความซับซ้อนในการคำนวณคือ O (K) โดยที่ K คือจำนวนเซลล์กริดที่ระดับต่ำสุด โดยปกติแล้วจะเป็น K <