Computer >> คอมพิวเตอร์ >  >> การเขียนโปรแกรม >> การเขียนโปรแกรม

การจัดกลุ่มแนวคิดคืออะไร?


การจัดกลุ่มแนวคิดเป็นรูปแบบหนึ่งของการจัดกลุ่มในการเรียนรู้ของเครื่องที่ เมื่อกำหนดชุดของออบเจ็กต์ที่ไม่มีป้ายกำกับ จะทำให้การออกแบบการจัดหมวดหมู่เหนืออ็อบเจ็กต์ ต่างจากการทำคลัสเตอร์ทั่วไปซึ่งโดยทั่วไปจะระบุกลุ่มของออบเจ็กต์ที่คล้ายกัน การจัดกลุ่มแนวคิดไปไกลกว่านั้นอีกขั้นด้วยการค้นหาคำจำกัดความลักษณะเฉพาะสำหรับแต่ละกลุ่ม โดยที่แต่ละกลุ่มจะกำหนดแนวคิดหรือคลาส

ดังนั้น การจัดกลุ่มแนวคิดจึงเป็นกระบวนการสองขั้นตอน - การจัดกลุ่มจะดำเนินการก่อน ตามด้วยการกำหนดลักษณะเฉพาะ ดังนั้น คุณภาพการจัดกลุ่มไม่ได้เป็นเพียงบริการของวัตถุเดียว เทคนิคส่วนใหญ่ของการจัดกลุ่มแนวคิดใช้วิธีทางสถิติที่ใช้การวัดความน่าจะเป็นในการตัดสินใจแนวคิดหรือคลัสเตอร์

คำอธิบายความน่าจะเป็นโดยทั่วไปมักใช้เพื่อกำหนดแนวคิดที่ได้รับ COBWEB เป็นวิธีการที่มีชื่อเสียงและเรียบง่ายของการจัดกลุ่มแนวคิดแบบเพิ่มหน่วย ออบเจ็กต์ Itinput ถูกกำหนดโดยคู่แอตทริบิวต์-ค่าตามหมวดหมู่ COBWEB ทำให้การจัดกลุ่มแบบมีลำดับชั้นในรูปแบบของแผนผังการจัดประเภท

แผนผังการจัดประเภทแตกต่างจากแผนผังการตัดสินใจ แต่ละโหนดในแผนผังการจำแนกประเภทกำหนดแนวคิดและรวมถึงคำอธิบายความน่าจะเป็นของแนวคิดนั้น ซึ่งสรุปอ็อบเจ็กต์ที่จัดประเภทภายใต้โหนด คำอธิบายความน่าจะเป็นมีความน่าจะเป็นของแนวคิดและความน่าจะเป็นแบบมีเงื่อนไขของรูปแบบ$P(A_{i}=v_{ij}|C_{k})$ เป็นคู่ค่าแอตทริบิวต์ (i th แอตทริบิวต์รับ j th ค่าที่เป็นไปได้) และ Ck เป็นคลาสแนวคิด

COBWEB ใช้การวัดผลการประเมินพฤติกรรมที่เรียกว่า หมวดหมู่ยูทิลิตี้ เพื่อเป็นแนวทางในการสร้างต้นไม้ หมวดหมู่ยูทิลิตี้ (CU) ถูกกำหนดเป็น

$$\frac{\sum_{k=1}^{n}P(C_{k})\left [\sum_{i}\sum_{j}P(A_{i}=v_{ij}|C_{) k})^{2}-\sum_{i}\sum_{j}P(A_{i}=v_{ij})^{2}\right ]}{n}$$

โดยที่ n คือจำนวนโหนด แนวคิด หรือ "หมวดหมู่" ที่สร้างพาร์ติชัน {C1 ,C2 ,..., Cn } ในระดับที่กำหนดของต้นไม้ ในอีกแง่หนึ่ง หมวดหมู่อรรถประโยชน์คือการเพิ่มขึ้นของจำนวนค่าแอตทริบิวต์ที่คาดไว้ซึ่งสามารถคาดเดาได้อย่างสมบูรณ์เมื่อแบ่งพาร์ติชัน (โดยที่ตัวเลขที่คาดไว้นี้สอดคล้องกับคำว่า $P(C_{k})\sum_{i}\sum_{j }P(A_{i}=v_{ij}|C_{k})^{2}$ จากจำนวนการเดาที่ถูกต้องที่คาดไว้โดยไม่มีความรู้ดังกล่าว (สอดคล้องกับคำ $\sum_{i}\sum_{j} P(A_{i}=v_{ij})^{2}$ .แม้ว่าจะไม่มีพื้นที่สำหรับแสดงที่มา แต่ยูทิลิตี้หมวดหมู่ให้รางวัลความคล้ายคลึงกันภายในคลาสและความแตกต่างระหว่างคลาส โดยที่ -

ความคล้ายคลึงกันภายในคลาส − เป็นความน่าจะเป็นที่ $P(A_{i}=v_{ij}|C_{k})$ ยิ่งค่านี้สูงเท่าใด สัดส่วนของสมาชิกในชั้นเรียนที่ใช้คู่ค่าแอตทริบิวต์นี้ก็จะยิ่งสูงขึ้น และสมาชิกในชั้นเรียนก็จะยิ่งคาดเดาได้มากขึ้นเท่านั้น

ความแตกต่างระหว่างคลาส − เป็นความน่าจะเป็นที่ $P(C_{k}|A_{i}=v_{ij})$ ยิ่งค่านี้สูงเท่าใด อ็อบเจ็กต์ในคลาสที่ตัดกันซึ่งใช้คู่ของแอตทริบิวต์-ค่านี้ก็จะยิ่งน้อยลงเท่านั้น และคู่ที่คาดการณ์ได้ของคลาสก็จะยิ่งมากเท่านั้น

COBWEB ลงมาตามเส้นทางที่เหมาะสม นับความสดชื่นตลอดทาง ค้นหา "โฮสต์ที่ดีที่สุด" หรือโหนดที่จะกำหนดวัตถุ การตัดสินใจนี้ขึ้นอยู่กับตำแหน่งชั่วคราวของวัตถุในแต่ละโหนดและการประเมินหมวดหมู่ยูทิลิตี้ของพาร์ติชั่นผลลัพธ์ ตำแหน่งที่ส่งผลให้มีหมวดหมู่สูงสุดควรเป็นโฮสต์ที่ดีที่สุดสำหรับออบเจกต์