Computer >> คอมพิวเตอร์ >  >> การเขียนโปรแกรม >> การเขียนโปรแกรม

แนวทางของการจัดกลุ่มตามกราฟมีอะไรบ้าง?


กระบวนการรวมชุดของวัตถุทางกายภาพหรือนามธรรมเข้าในคลาสของวัตถุเดียวกันนั้นเรียกว่าการจัดกลุ่ม คลัสเตอร์คือชุดของออบเจ็กต์ข้อมูลที่เหมือนกันภายในคลัสเตอร์เดียวกันและแตกต่างจากออบเจ็กต์ในคลัสเตอร์อื่น คลัสเตอร์ของออบเจ็กต์ข้อมูลสามารถพิจารณารวมกันเป็นกลุ่มเดียวในหลายแอปพลิเคชัน การวิเคราะห์คลัสเตอร์เป็นกิจกรรมที่สำคัญของมนุษย์

การทำคลัสเตอร์รองรับการระบุค่าผิดปกติ ค่าเดียวกันจะถูกจัดเป็นกลุ่ม และค่าที่อยู่นอกคลัสเตอร์เรียกว่าค่าผิดปกติ เทคนิคการจัดกลุ่มถือว่าข้อมูลทูเพิลเป็นออบเจ็กต์ พวกเขาแบ่งวัตถุออกเป็นกลุ่มหรือคลัสเตอร์เพื่อให้วัตถุภายในคลัสเตอร์ "คล้ายกัน" และ "แตกต่าง" กับวัตถุในกลุ่มอื่น โดยทั่วไปมีการกำหนดไว้ในแง่ของการ "ใกล้" ของวัตถุในอวกาศโดยพิจารณาจากฟังก์ชันระยะทาง

มีแนวทางต่างๆ ของการจัดกลุ่มตามกราฟดังนี้ -

กระจายกราฟความใกล้เคียงเพื่อรักษาเฉพาะการเชื่อมโยงของวัตถุกับเพื่อนบ้านที่ใกล้ที่สุด การกระจัดกระจายนี้มีประโยชน์สำหรับการจัดการเสียงรบกวนและค่าผิดปกติ นอกจากนี้ยังช่วยให้สามารถใช้อัลกอริธึมการแบ่งพาร์ติชั่นกราฟที่มีประสิทธิภาพมหาศาลซึ่งสร้างขึ้นสำหรับกราฟแบบเบาบาง

มันสามารถแสดงการวัดความคล้ายคลึงกันระหว่างสองวัตถุโดยพิจารณาจากเพื่อนบ้านที่ใกล้ที่สุดหลายแห่งที่พวกเขาส่ง วิธีการนี้ซึ่งขึ้นอยู่กับการสังเกตว่าวัตถุและวัตถุที่อยู่ใกล้เคียงที่สุดโดยทั่วไปอยู่ในประเภทเดียวกัน มีประโยชน์สำหรับการเอาชนะปัญหาที่มีมิติสูงและกลุ่มของความหนาแน่นที่เปลี่ยนแปลงไป

มันสามารถเป็นตัวแทนของวัตถุหลักและพัฒนาคลัสเตอร์รอบตัวพวกเขา ในการจัดกลุ่มตามกราฟ จำเป็นต้องแนะนำแนวคิดเรื่องความหนาแน่นตามกราฟความใกล้เคียงหรือกราฟความใกล้เคียงที่กระจัดกระจาย เช่นเดียวกับ DBSCAN การพัฒนาคลัสเตอร์รอบออบเจ็กต์หลักจะนำไปสู่แนวทางการจัดกลุ่มที่สามารถค้นพบคลัสเตอร์ที่มีรูปร่างและขนาดต่างกันได้

สามารถใช้ข้อมูลในกราฟความใกล้เคียงเพื่อสนับสนุนการคำนวณที่ซับซ้อนยิ่งขึ้นว่าควรรวมสองคลัสเตอร์หรือไม่ โดยเฉพาะอย่างยิ่ง สองคลัสเตอร์จะถูกรวมเข้าด้วยกันก็ต่อเมื่อคลัสเตอร์ที่ได้จะมีลักษณะเหมือนกับสองคลัสเตอร์เริ่มต้น

โดยสามารถเริ่มต้นด้วยการพูดคุยเกี่ยวกับการกระจายตัวของกราฟความใกล้เคียง โดยสนับสนุนสองอินสแตนซ์ของเทคนิคที่มีวิธีการจัดกลุ่มตามแนวทางนี้ เช่น MST ซึ่งเหมือนกับอัลกอริทึมการจัดกลุ่มการเชื่อมต่อเดี่ยวและ Opossum

อัลกอริทึมการจัดกลุ่มแบบลำดับชั้นที่ต้องการแนวคิดเกี่ยวกับความคล้ายคลึงในตัวเองเพื่อพิจารณาว่าควรรวมคลัสเตอร์หรือไม่ มันสามารถกำหนดความคล้ายคลึงกันที่แชร์ที่ใกล้ที่สุด (SNN) ซึ่งเป็นการวัดความคล้ายคลึงใหม่) และเรียนรู้อัลกอริธึมการจัดกลุ่มของ Jarvis-Patrick ซึ่งต้องการความคล้ายคลึงกันนี้