Computer >> คอมพิวเตอร์ >  >> การเขียนโปรแกรม >> การเขียนโปรแกรม

ลักษณะข้อมูลคืออะไร?


ต่อไปนี้คือคุณลักษณะบางอย่างของข้อมูลที่อาจส่งผลกระทบอย่างมากต่อการวิเคราะห์คลัสเตอร์ซึ่งมีดังต่อไปนี้ -

มิติสูง − ในชุดข้อมูลมิติสูง แนวความคิดแบบยุคลิดดั้งเดิมเรื่องความหนาแน่น ซึ่งเป็นจุดหลายจุดต่อปริมาตรหนึ่งหน่วยจะมีนัยสำคัญ โดยพิจารณาว่าเมื่อมิติข้อมูลหลายมิติเพิ่มขึ้น ปริมาตรจะเพิ่มขึ้นเรื่อยๆ และหากจุดหลายจุดเพิ่มขึ้นแบบทวีคูณด้วยมิติข้อมูลหลายมิติ ความหนาแน่นมีแนวโน้มเป็น 0

นอกจากนี้ยังสามารถมีอิทธิพลใกล้เคียงเพื่อให้มีความสม่ำเสมอมากขึ้นในพื้นที่ที่มีมิติสูง มีอีกวิธีหนึ่งในการพิจารณาความจริงข้อนี้คือมิติข้อมูล (แอตทริบิวต์) ที่เพิ่มขึ้นซึ่งนำไปสู่ความใกล้ชิดระหว่างจุดสองจุด และสิ่งนี้มีแนวโน้มที่จะสร้างความใกล้ชิดที่สม่ำเสมอมากขึ้น

เนื่องจากเทคนิคการจัดกลุ่มส่วนใหญ่ขึ้นอยู่กับความใกล้ชิดหรือความหนาแน่น จึงอาจมีปัญหากับข้อมูลมิติสูง วิธีหนึ่งในการแก้ไขปัญหาดังกล่าวคือการใช้วิธีการลดขนาดมิติ

ขนาด − อัลกอริทึมการจัดกลุ่มบางตัวที่ทำงานได้ดีสำหรับชุดข้อมูลขนาดเล็กหรือขนาดกลางไม่สามารถจัดการชุดข้อมูลที่สูงกว่าได้

เบาบาง − ข้อมูลแบบกระจายรวมถึงแอตทริบิวต์ที่ไม่สมมาตร โดยที่ค่าศูนย์ไม่สำคัญเท่ากับค่าที่ไม่ใช่ศูนย์ ดังนั้น จึงมักใช้การวัดความคล้ายคลึงที่เหมาะสมสำหรับแอตทริบิวต์ที่ไม่สมมาตร

เสียงรบกวนและความผิดปกติ − จุดทั่วไป (ค่าผิดปกติ) สามารถลดการใช้งานอัลกอริธึมการจัดกลุ่มได้อย่างรุนแรง โดยเฉพาะอย่างยิ่งอัลกอริธึมรวมถึง K-mean ที่อิงตามต้นแบบ กล่าวอีกนัยหนึ่ง สัญญาณรบกวนอาจทำให้เทคนิคต่างๆ รวมถึงลิงก์เดี่ยว รวมกลุ่มที่ต้องไม่รวมกัน

ในกรณีทั่วไป อัลกอริทึมสำหรับการกำจัดสัญญาณรบกวนและค่าผิดปกติจะถูกใช้ก่อนที่จะใช้อัลกอริธึมการจัดกลุ่ม นอกจากนี้ อัลกอริธึมบางตัวสามารถระบุจุดที่กำหนดสัญญาณรบกวนและค่าผิดปกติในระหว่างขั้นตอนการจัดกลุ่ม จากนั้นจึงลบออกหรือลบผลกระทบด้านลบออก

ประเภทของแอตทริบิวต์และชุดข้อมูล − ชุดข้อมูลสามารถมีได้หลายประเภท รวมถึงแบบมีโครงสร้าง กราฟ หรือแบบเรียงลำดับ ในขณะที่แอตทริบิวต์สามารถจัดหมวดหมู่ (ระบุหรือเรียงลำดับ) หรือเชิงปริมาณ (ช่วงหรืออัตราส่วน) และเป็นเลขฐานสอง ไม่ต่อเนื่อง หรือต่อเนื่อง

ความใกล้เคียงและการวัดความหนาแน่นที่หลากหลายเหมาะสำหรับข้อมูลหลายประเภท ในหลายสถานการณ์ อาจจำเป็นต้องแยกข้อมูลหรือจัดข้อมูลเป็นไบนารี่ เพื่อให้สามารถใช้การวัดความใกล้เคียงหรืออัลกอริทึมการจัดกลุ่มที่ต้องการได้

ความยากอีกประการหนึ่งปรากฏขึ้นเมื่อคุณลักษณะมีหลายประเภทอย่างกว้างๆ เช่น ต่อเนื่องและเล็กน้อย ในวิธีนี้ ความใกล้ชิดและความหนาแน่นจะซับซ้อนกว่าในการกำหนดและจัดเตรียมเฉพาะกิจมากขึ้น สุดท้ายนี้ โครงสร้างข้อมูลและอัลกอริธึมที่เฉพาะเจาะจงสามารถกำหนดเพื่อจัดการข้อมูลบางประเภทได้อย่างมีประสิทธิภาพ

มาตราส่วน − คุณลักษณะหลายอย่าง เช่น ส่วนสูงและน้ำหนัก สามารถวัดได้บนเครื่องชั่งหลายเครื่อง ความแตกต่างเหล่านี้อาจส่งผลกระทบอย่างมากต่อระยะทางหรือความคล้ายคลึงกันระหว่างสองออบเจ็กต์ และด้วยเหตุนี้ ผลลัพธ์ของการวิเคราะห์คลัสเตอร์ พิจารณาจัดกลุ่มคนตามส่วนสูง ซึ่งคำนวณเป็นเมตรและน้ำหนักซึ่งมีหน่วยเป็นกิโลกรัม