Computer >> คอมพิวเตอร์ >  >> การเขียนโปรแกรม >> การเขียนโปรแกรม

ขั้นตอนที่เกี่ยวข้องกับระบบการจัดกลุ่มกฎของสมาคมมีอะไรบ้าง


มีขั้นตอนที่เกี่ยวข้องกับระบบการจัดกลุ่มกฎการเชื่อมโยงดังต่อไปนี้ -

ถังเก็บ − คุณลักษณะเชิงปริมาณสามารถมีค่าต่างๆ มากมายที่แสดงถึงโดเมนของพวกเขา สามารถคิดได้ว่าตาราง 2 มิติจะใหญ่แค่ไหนหากสามารถพล็อตอายุและรายได้เป็นแกน โดยที่ค่าอายุที่เป็นไปได้ทุกค่าจะถูกสร้างขึ้นในตำแหน่งเฉพาะบนแกนเดียว และเช่นเดียวกัน ทุกมูลค่าของรายได้ที่เป็นไปได้ก็ถูกสร้างขึ้นมาอย่างเฉพาะเจาะจง ตำแหน่งบนอีกแกนหนึ่ง

มันสามารถรักษากริดให้มีขนาดที่จัดการได้ มันสามารถแบ่งพื้นที่ของแอตทริบิวต์เชิงปริมาณออกเป็นช่วงเวลาแทนได้ ช่วงเวลาเหล่านี้มีประสิทธิภาพที่สามารถรวมกันได้ในระหว่างขั้นตอนการขุด ขั้นตอนการแบ่งพาร์ทิชันถูกกำหนดให้เป็น binning ซึ่งก็คือช่วงที่ถือว่าเป็น "ถังขยะ"

กลยุทธ์ Binning ทั่วไปมีสามส่วนดังนี้ -

ถังที่มีความกว้างเท่ากัน − ในการ Bining ที่มีความกว้างเท่ากัน โดยที่ขนาดช่วงของแต่ละถังจะเท่ากัน

การแบ่งความถี่เท่ากัน − ในการแบ่งความถี่เท่ากัน โดยที่แต่ละถังมีจำนวน tuples เท่ากันโดยประมาณ

Binning ตามคลัสเตอร์ − ในการ Binning แบบคลัสเตอร์ โดยที่คลัสเตอร์จะดำเนินการบนแอตทริบิวต์เชิงปริมาณเพื่อจัดกลุ่มจุดที่อยู่ใกล้เคียง (ตัดสินตามการวัดระยะทางต่างๆ) ลงในถังเดียวกัน

ARCS ต้องการ binning ที่มีความกว้างเท่ากัน โดยผู้ใช้จะป้อนขนาดช่องสำหรับแอตทริบิวต์เชิงปริมาณทุกรายการ มีการสร้างอาร์เรย์ 2 มิติสำหรับชุดค่าผสม bin ที่เป็นไปได้ทั้งหมด ซึ่งรวมถึงแอตทริบิวต์เชิงปริมาณทั้งสองแบบ

ทุกเซลล์อาร์เรย์มีอิทธิพลต่อการแจกแจงนับที่สอดคล้องกันสำหรับแต่ละคลาสที่ทำได้ของแอตทริบิวต์หมวดหมู่ของกฎทางด้านขวามือ ด้วยการสร้างโครงสร้างข้อมูลนี้ ข้อมูลที่เกี่ยวข้องกับงานที่ต้องการจะถูกสแกนเพียงครั้งเดียว สามารถใช้อาร์เรย์ 2 มิติเดียวกันเพื่อสร้างกฎสำหรับค่าบางค่าของแอตทริบิวต์หมวดหมู่ ทั้งนี้ขึ้นอยู่กับแอตทริบิวต์เชิงปริมาณสองรายการเดียวกัน

การหาชุดภาคแสดงที่ใช้บ่อย − เนื่องจากมีการตั้งค่าอาร์เรย์ 2 มิติรวมถึงการแจกแจงนับสำหรับทุกหมวดหมู่ จึงสามารถสแกนเพื่อค้นหาชุดเพรดิเคตที่ใช้บ่อย (สนับสนุนขั้นต่ำที่น่าพอใจ) ที่ตอบสนองความมั่นใจขั้นต่ำด้วย

อัลกอริทึมจะตรวจสอบกริด โดยมองหากลุ่มกฎสี่เหลี่ยม ในวิธีนี้ สามารถรวมช่องเก็บแอตทริบิวต์เชิงปริมาณที่ปรากฏภายในคลัสเตอร์กฎได้ ดังนั้นการแยกแอตทริบิวต์แบบไดนามิกจึงปรากฏขึ้น

วิธีการแบบกริดอธิบายว่ากฎการเชื่อมโยงดั้งเดิมสามารถจัดกลุ่มเป็นส่วนสี่เหลี่ยมได้ ก่อนดำเนินการคลัสเตอร์ คุณสามารถใช้วิธีการปรับให้เรียบเพื่อขจัดสัญญาณรบกวนและค่าผิดปกติออกจากบันทึกได้ กลุ่มสี่เหลี่ยมสามารถทำให้ข้อมูลง่ายขึ้นได้

แนะนำให้ใช้แนวทางที่ไม่อิงตามตารางเพื่อค้นหากฎการเชื่อมโยงเชิงปริมาณที่กว้างกว่า ซึ่งแอตทริบิวต์เชิงปริมาณและหมวดหมู่จำนวนมากสามารถเกิดขึ้นได้ที่ด้านใดด้านหนึ่งของกฎ

ในแนวทางนี้ แอตทริบิวต์เชิงปริมาณจะถูกแยกออกแบบไดนามิกโดยใช้การแบ่งความถี่เดียวกัน และพาร์ติชั่นจะรวมกันขึ้นอยู่กับการวัดความสมบูรณ์บางส่วน ซึ่งวัดปริมาณข้อมูลที่สูญหายเนื่องจากการแบ่งพาร์ติชั่น