Computer >> คอมพิวเตอร์ >  >> การเขียนโปรแกรม >> การเขียนโปรแกรม

เราจะค้นหาคลัสเตอร์ซับสเปซจากข้อมูลมิติสูงได้อย่างไร


มีหลายวิธีที่ได้รับการจัดประเภทเป็นสามกลุ่มหลัก ได้แก่ เทคนิคการค้นหาพื้นที่ย่อย เทคนิคการจัดกลุ่มตามสหสัมพันธ์ และเทคนิคการจัดกลุ่ม

เทคนิคการค้นหาซับสเปซ − วิธีการค้นหา subspace ค้นหา subspaces ต่างๆ สำหรับคลัสเตอร์ ดังนั้น คลัสเตอร์จึงเป็นชุดย่อยของอ็อบเจ็กต์ที่เหมือนกันในซับสเปซ ความคล้ายคลึงกันได้มาจากการวัดแบบทั่วไป ซึ่งรวมถึงระยะทางหรือความหนาแน่น

ตัวอย่างเช่น อัลกอริทึม CLIQUE เป็นเทคนิคการจัดกลุ่มพื้นที่ย่อย มันสามารถระบุซับสเปซและคลัสเตอร์ในสเปซย่อยเหล่านั้นในชุดที่เพิ่มมิติ และใช้ antimonotonicity เพื่อตัดซับสเปซที่ไม่มีคลัสเตอร์ใดสามารถดำเนินการต่อได้ ความท้าทายที่ยิ่งใหญ่กว่าที่เทคนิคการค้นหาสเปซย่อยเผชิญคือการค้นหาลำดับของสเปซย่อยอย่างมีประสิทธิภาพ

วิธีการมีสองประเภทดังต่อไปนี้ -

  • วิธีการจากล่างขึ้นบนเริ่มต้นจากสเปซย่อยมิติต่ำและค้นหาสเปซย่อยมิติที่สูงกว่าก็ต่อเมื่อสามารถมีคลัสเตอร์ในมิติที่ใหญ่กว่าเหล่านั้น มีการวิเคราะห์วิธีการตัดแต่งกิ่งหลายวิธีเพื่อลดช่องว่างย่อยในมิติที่สูงกว่าหลายรายการที่ต้องค้นหา CLIQUE เป็นตัวอย่างของแนวทางจากล่างขึ้นบน

  • วิธีการจากบนลงล่างเริ่มต้นจากพื้นที่ทั้งหมดและค้นหาพื้นที่ย่อยที่เล็กลงและเล็กลงแบบวนซ้ำ วิธีการจากบนลงล่างจะมีประสิทธิภาพก็ต่อเมื่อสมมติฐานของท้องที่มีอิทธิพล ซึ่งต้องการให้พื้นที่ย่อยของคลัสเตอร์สามารถตัดสินใจได้โดยละแวกใกล้เคียง

วิธีการจัดกลุ่มตามสหสัมพันธ์ − ในขณะที่วิธีการค้นหาซับสเปซค้นหาคลัสเตอร์ที่มีความคล้ายคลึงกันซึ่งคำนวณโดยใช้เมตริกทั่วไป เช่น ระยะทางหรือความหนาแน่น วิธีการแบบอิงสหสัมพันธ์สามารถค้นหาคลัสเตอร์ที่แสดงโดยโมเดลสหสัมพันธ์ขั้นสูงได้

แนวทางที่ใช้ PCA จะใช้ PCA (การวิเคราะห์ส่วนประกอบหลัก) ก่อนเพื่อเปลี่ยนชุดของมิติใหม่ที่ไม่สัมพันธ์กัน ดังนั้นจึงทำเหมืองคลัสเตอร์ในพื้นที่ใหม่หรือพื้นที่ย่อย นอกจากนี้ PCA ยังใช้การแปลงพื้นที่อื่นๆ ได้ รวมถึงการแปลง Hough หรือขนาดเศษส่วน

วิธีการจัดกลุ่ม − ในบางแอปพลิเคชัน จำเป็นต้องจัดกลุ่มทั้งอ็อบเจ็กต์และแอตทริบิวต์พร้อมกัน คลัสเตอร์ที่ได้จะเรียกว่า biclusters และเป็นไปตามข้อกำหนดสี่ประการดังนี้ −

  • เป็นเพียงกลุ่มเล็ก ๆ ของวัตถุที่ทำงานในคลัสเตอร์

  • คลัสเตอร์มีแอตทริบิวต์เพียงเล็กน้อยเท่านั้น

  • วัตถุสามารถมีส่วนร่วมในหลายคลัสเตอร์ หรือไม่มีส่วนร่วมในคลัสเตอร์ใดๆ

  • แอตทริบิวต์สามารถรวมอยู่ในหลายคลัสเตอร์หรือไม่มีอยู่ในคลัสเตอร์ใดๆ

ขั้นแรกแนะนำให้ใช้เทคนิค Biclustering เพื่อจัดการกับข้อกำหนดสำหรับการสำรวจข้อมูลการแสดงออกของยีน ยีนเป็นระบบของการถ่ายทอดลักษณะตั้งแต่โครงสร้างที่มีชีวิตไปจนถึงลูกหลานของมัน โดยทั่วไป ยีนประกอบด้วยส่วนของ DNA

ยีนมีความสำคัญต่อสิ่งมีชีวิตทุกชนิดเพราะพวกมันกำหนดโปรตีนและสาย RNA ที่ใช้งานได้ สิ่งเหล่านี้มีอิทธิพลต่อข้อมูลในการสร้างและสนับสนุนเซลล์ของสิ่งมีชีวิตและส่งต่อลักษณะทางพันธุกรรมไปยังลูกหลาน

จีโนไทป์คือองค์ประกอบทางพันธุกรรมของเซลล์ สิ่งมีชีวิต หรือปัจเจกบุคคล ฟีโนไทป์เป็นลักษณะเด่นของสิ่งมีชีวิต การแสดงออกของยีนเป็นระดับที่สำคัญในพันธุกรรม โดยที่จีโนไทป์ทำให้เกิดฟีโนไทป์