Computer >> คอมพิวเตอร์ >  >> การเขียนโปรแกรม >> การเขียนโปรแกรม

การทำคลัสเตอร์ตามแบบจำลองคืออะไร?


การจัดกลุ่มตามแบบจำลองเป็นวิธีทางสถิติสำหรับการจัดกลุ่มข้อมูล ข้อมูลที่สังเกตได้ (หลายตัวแปร) ได้รับการพิจารณาว่าสร้างขึ้นจากการผสมผสานของแบบจำลองส่วนประกอบอย่างจำกัด โมเดลองค์ประกอบแต่ละแบบเป็นการแจกแจงความน่าจะเป็น โดยทั่วไปเป็นการแจกแจงแบบหลายตัวแปรแบบพาราเมตริก

ตัวอย่างเช่น ในแบบจำลองส่วนผสมแบบเกาส์เซียนหลายตัวแปร แต่ละองค์ประกอบเป็นการแจกแจงแบบเกาส์เซียนหลายตัวแปร องค์ประกอบที่รับผิดชอบในการสร้างการสังเกตโดยเฉพาะจะกำหนดคลัสเตอร์ที่มีการสังเกต

การจัดกลุ่มตามแบบจำลองเป็นการพยายามเพิ่มความพอดีระหว่างข้อมูลที่กำหนดและแบบจำลองทางคณิตศาสตร์บางตัว และขึ้นอยู่กับสมมติฐานที่ว่าข้อมูลถูกสร้างขึ้นโดยการรวมการแจกแจงความน่าจะเป็นพื้นฐานร่วมกัน

มีประเภทของคลัสเตอร์ตามแบบจำลองดังต่อไปนี้ -

แนวทางทางสถิติ − การเพิ่มความคาดหวังสูงสุดเป็นอัลกอริธึมการปรับแต่งซ้ำที่ได้รับความนิยม ส่วนขยายของ k-mean −

  • สามารถกำหนดแต่ละวัตถุให้กับคลัสเตอร์ตามน้ำหนัก (การกระจายความน่าจะเป็น)

  • วิธีการใหม่คำนวณตามการวัดน้ำหนัก

แนวคิดพื้นฐานมีดังนี้ −

  • สามารถเริ่มต้นด้วยค่าประมาณเริ่มต้นของเวกเตอร์พารามิเตอร์

  • สามารถใช้เพื่อทบทวนการออกแบบซ้ำๆ กับความหนาแน่นของส่วนผสมที่ทำโดยเวกเตอร์พารามิเตอร์

  • ใช้สำหรับรูปแบบที่ให้คะแนนอีกครั้งเพื่ออัปเดตค่าประมาณพารามิเตอร์

  • สามารถใช้เพื่อสร้างรูปแบบที่เป็นของกลุ่มเดียวกันได้หากพวกเขาถูกจัดวางโดยคะแนนของพวกเขาในองค์ประกอบเฉพาะ

อัลกอริทึม

  • เริ่มแรก กำหนดศูนย์คลัสเตอร์ k แบบสุ่ม

  • โดยสามารถกลั่นกรองคลัสเตอร์ซ้ำได้ 2 ขั้นตอนดังนี้ −

ขั้นตอนที่คาดหวัง − สามารถกำหนดจุดข้อมูลแต่ละจุด Xi ไปยังคลัสเตอร์ Ci โดยมีความน่าจะเป็นดังนี้

$$\mathrm{P(X_{i}\in\:C_{k})\:=\:P(C_k\arrowvert\:X_i)\:=\:\frac{P(C_k)P(X_i\ arrowvert\:C_k)}{P(X_i)}}$$

ขั้นตอนการขยายสูงสุด − สามารถใช้ประมาณค่าพารามิเตอร์โมเดลได้

$$\mathrm{m_k\:=\:\frac{1}{N}\displaystyle\sum\limits_{i=1}^N \frac{X_{i}P(X_i\:\in\:C_k) {X_{j}P(X_i)\in\:C_j}}$$

แนวทางการเรียนรู้ของเครื่อง − แมชชีนเลิร์นนิงเป็นแนวทางที่ทำให้อัลกอริธึมที่ซับซ้อนสำหรับการประมวลผลข้อมูลขนาดใหญ่และสนับสนุนผลลัพธ์แก่ผู้ใช้ มันใช้โปรแกรมที่ซับซ้อนที่สามารถเข้าใจผ่านประสบการณ์และสร้างการคาดคะเน

อัลกอริธึมได้รับการปรับปรุงด้วยตัวเองโดยการป้อนข้อมูลการฝึกอบรมบ่อยครั้ง วัตถุประสงค์หลักของแมชชีนเลิร์นนิงคือการเรียนรู้ข้อมูลและสร้างแบบจำลองจากข้อมูลที่มนุษย์สามารถเข้าใจและนำไปใช้ได้

เป็นแนวทางที่มีชื่อเสียงของการเรียนรู้แนวคิดแบบเพิ่มหน่วย ซึ่งสร้างการจัดกลุ่มแบบลำดับชั้นในรูปแบบของแผนผังการจำแนกประเภท แต่ละโหนดกำหนดแนวคิดและรวมถึงการนำเสนอความน่าจะเป็นของแนวคิดนั้น

ข้อจำกัด

  • สมมติฐานที่ว่าแอตทริบิวต์เป็นอิสระจากกันมักจะมากเกินไปเพราะอาจมีความสัมพันธ์กัน

  • ไม่เหมาะสำหรับการจัดกลุ่มข้อมูลฐานข้อมูลขนาดใหญ่ ต้นไม้เอียง และการแจกแจงความน่าจะเป็นที่มีราคาแพง

แนวทางโครงข่ายประสาทเทียม − วิธีโครงข่ายประสาทเทียมแสดงแต่ละคลัสเตอร์เป็นตัวอย่าง โดยทำหน้าที่เป็นต้นแบบของคลัสเตอร์ ออบเจ็กต์ใหม่ถูกแจกจ่ายไปยังคลัสเตอร์ซึ่งมีตัวอย่างใกล้เคียงกันมากที่สุดตามการวัดระยะทางบางส่วน