Computer >> คอมพิวเตอร์ >  >> การเขียนโปรแกรม >> การเขียนโปรแกรม

เบิร์ชคืออะไร?


BIRCH แสดงถึงการลดและการจัดกลุ่มแบบวนซ้ำที่สมดุลโดยใช้ลำดับชั้น ได้รับการออกแบบมาสำหรับการทำคลัสเตอร์เร็กคอร์ดตัวเลขจำนวนมากโดยการรวมการทำคลัสเตอร์แบบลำดับชั้นและวิธีการจัดคลัสเตอร์อื่นๆ รวมถึงการแบ่งพาร์ติชันแบบวนซ้ำ

BIRCH นำเสนอสองแนวคิด คือ คุณลักษณะการทำคลัสเตอร์และแผนผังคุณลักษณะการทำคลัสเตอร์ (แผนผัง CF) ซึ่งใช้เพื่อสรุปคำอธิบายคลัสเตอร์ โครงสร้างเหล่านี้อำนวยความสะดวกในวิธีการจัดกลุ่มเพื่อให้ได้ความเร็วและความสามารถในการปรับขนาดได้ดีที่สุดในฐานข้อมูลขนาดใหญ่ และยังสร้างประสิทธิภาพสำหรับการจัดกลุ่มวัตถุขาเข้าที่เพิ่มขึ้นและแบบไดนามิก

กำหนดวัตถุข้อมูลมิติ n หรือจุดในคลัสเตอร์ และสามารถแทนเซนทรอยด์ x0 , รัศมี R และเส้นผ่านศูนย์กลาง D ของกระจุกดาวดังนี้ −

$$x_{0}=\frac{\sum_{i=1}^{n}x_{i}}{n}$$

$$R=\sqrt{\frac{\sum_{i=1}^{n}(x_{i}-x_{0})^{2}}{n}}$$

$$D=\sqrt{\frac{\sum_{i=1}^{n}\sum_{j=1}^{n}(x_{i}-x_{j})^{2}}{n (n-1)}}$$

โดยที่ R คือระยะทางเฉลี่ยจากองค์ประกอบสมาชิกถึงเซนทรอยด์ และ D คือระยะทางเฉลี่ยคู่ภายในคลัสเตอร์ ทั้ง R และ D กลับความหนาแน่นของกระจุกดาวรอบเซนทรอยด์ คุณลักษณะการจัดกลุ่ม (CF) เป็นเวกเตอร์สามมิติที่สรุปข้อมูลเกี่ยวกับกลุ่มของวัตถุ กำหนดวัตถุมิติ d หรือจุดในคลัสเตอร์ {xi } จากนั้น CF ของคลัสเตอร์จะแสดงเป็น

CF=(n,LL,SS)

โดยที่ n คือจำนวนจุดในคลัสเตอร์ LS คือผลรวมเชิงเส้นของ n จุด $\sum_{i=1}^{n}(x_{i})$ และ SS คือผลรวมกำลังสองของจุดข้อมูล (เช่น,$\sum_{i=1}^{n}x_{i}^{2}$)

คุณลักษณะการจัดกลุ่มเป็นการสรุปสถิติสำหรับคลัสเตอร์ที่กำหนด:ช่วงเวลาที่ศูนย์ ที่หนึ่ง และสองของคลัสเตอร์จากมุมมองทางสถิติ คุณลักษณะการจัดกลุ่มเป็นส่วนเสริม ตัวอย่างเช่น สมมติว่าเรามีคลัสเตอร์ที่ไม่ปะติดปะต่อกันสองคลัสเตอร์ C1 และ C2 ซึ่งมีคุณลักษณะการทำคลัสเตอร์ ได้แก่ CF1 และ CF2 โดยทั่วไป คุณลักษณะการจัดกลุ่มสำหรับคลัสเตอร์ที่เกิดขึ้นจากการรวม C1 และ C2 เป็นเพียง CF1 +CF2

คุณลักษณะการจัดกลุ่มเพียงพอสำหรับการคำนวณการวัดทั้งหมดที่จำเป็นสำหรับการพัฒนาการตัดสินใจจัดกลุ่มใน BIRCH BIRCH ใช้การจัดเก็บข้อมูลอย่างมีประสิทธิภาพโดยใช้คุณลักษณะการจัดกลุ่มเพื่อสรุปข้อมูลเกี่ยวกับคลัสเตอร์ของออบเจ็กต์ ดังนั้นจึงข้ามข้อกำหนดในการบันทึกออบเจ็กต์ทั้งหมด

แผนผัง CF เป็นแผนผังที่มีความสูงสมดุลซึ่งจะบันทึกคุณลักษณะการทำคลัสเตอร์สำหรับการจัดคลัสเตอร์แบบลำดับชั้น โหนดที่ไม่ใช่ใบไม้ในต้นไม้มีลูกหลานหรือ "ลูก" โหนดที่ไม่ใช่ใบไม้จะเก็บผลรวมของ CF ย่อยของลูก ดังนั้นจึงสรุปข้อมูลการจัดกลุ่มเกี่ยวกับลูกๆ ของพวกเขา

แผนผัง CF มีพารามิเตอร์สองตัว ได้แก่ ปัจจัยการแตกแขนง B และขีดจำกัด T องค์ประกอบการแตกแขนงจะกำหนดจำนวนชายด์สูงสุดต่อโหนดที่ไม่ใช่โหนด พารามิเตอร์ธรณีประตูกำหนดเส้นผ่านศูนย์กลางสูงสุดของคลัสเตอร์ย่อยที่บันทึกไว้ที่โหนดปลายสุดของต้นไม้ พารามิเตอร์ทั้งสองนี้ถือขนาดของแผนภูมิผลลัพธ์