Computer >> คอมพิวเตอร์ >  >> การเขียนโปรแกรม >> การเขียนโปรแกรม

การลดจำนวนคืออะไร?


ในการลดจำนวนข้อมูล ปริมาณข้อมูลจะลดลงโดยการเลือกรูปแบบการแสดงข้อมูลทางเลือกที่เล็กกว่า เทคนิคเหล่านี้อาจเป็นแบบพาราเมตริกหรือไม่มีพารามิเตอร์ก็ได้ สำหรับเมธอดพาราเมตริก ตัวแบบใช้ในการประมาณข้อมูล ดังนั้นจึงต้องเก็บเฉพาะพารามิเตอร์ข้อมูล แทนที่จะเป็นข้อมูลจริง เช่น โมเดลบันทึกเชิงเส้น เมธอดที่ไม่ใช่พารามิเตอร์ใช้สำหรับจัดเก็บการแสดงข้อมูลที่ลดลงซึ่งรวมถึงฮิสโตแกรม การจัดกลุ่ม และการสุ่มตัวอย่าง

มีเทคนิคการลดจำนวนดังต่อไปนี้ -

แบบจำลองการถดถอยและบันทึก-เชิงเส้น − โมเดลเหล่านี้สามารถใช้ในการประมาณข้อมูลที่กำหนดได้ ในการถดถอยเชิงเส้น ข้อมูลจะถูกจำลองให้พอดีกับเส้นตรง ตัวอย่างเช่น ตัวแปรสุ่ม y (เรียกว่าตัวแปรตอบสนอง) สามารถจำลองเป็นฟังก์ชันเชิงเส้นของตัวแปรสุ่มอื่น x (เรียกว่าตัวแปรทำนาย) ด้วยสมการ y =wx+b โดยที่ความแปรปรวนของ y จะถือว่าคงที่

โมเดลบันทึกเชิงเส้น − ตัวแบบเหล่านี้ใช้เพื่อประมาณการแจกแจงความน่าจะเป็นแบบหลายมิติแบบไม่ต่อเนื่อง กำหนดชุดของทูเพิลใน n มิติ (เช่น โดย n คุณลักษณะ) สามารถพิจารณาแต่ละทูเพิลเป็นจุดในปริภูมิ n มิติ

สามารถใช้แบบจำลองบันทึกเชิงเส้นเพื่อวัดความน่าจะเป็นของแต่ละจุดในพื้นที่หลายมิติสำหรับชุดของแอตทริบิวต์ที่ไม่ต่อเนื่อง ขึ้นอยู่กับชุดย่อยที่เล็กกว่าของการรวมมิติ ซึ่งช่วยให้สามารถสร้างช่องข้อมูลมิติที่สูงกว่าจากช่องว่างมิติที่ต่ำกว่าได้

ฮิสโตแกรม − ฮิสโตแกรมใช้ binning เพื่อประมาณการกระจายข้อมูลและเป็นรูปแบบหนึ่งของการลดข้อมูลที่มีชื่อเสียง ฮิสโตแกรมสำหรับแอตทริบิวต์ A จะแบ่งการกระจายข้อมูลของ A ออกเป็นชุดย่อยที่ไม่ต่อเนื่องกัน หรือกลุ่มข้อมูล หากแต่ละที่เก็บข้อมูลกำหนดคู่แอตทริบิวต์-ค่า/ความถี่แต่ละรายการเท่านั้น ที่เก็บข้อมูลจะเรียกว่าที่เก็บข้อมูลซิงเกิลตัน

การจัดกลุ่ม − เทคนิคการจัดกลุ่มจะพิจารณาสิ่งอันดับข้อมูลเป็นวัตถุ พวกเขาแบ่งวัตถุออกเป็นกลุ่มหรือคลัสเตอร์เพื่อให้วัตถุภายในคลัสเตอร์ "คล้ายกัน" และ "แตกต่าง" กับวัตถุในกลุ่มอื่น โดยทั่วไปมีการกำหนดไว้ในแง่ของการ "ใกล้" ของวัตถุในอวกาศโดยพิจารณาจากฟังก์ชันระยะทาง

คุณภาพของคลัสเตอร์สามารถกำหนดได้ด้วยเส้นผ่านศูนย์กลาง ระยะห่างสูงสุดระหว่างวัตถุสองชิ้นในคลัสเตอร์ ระยะทางเซนทรอยด์เป็นการวัดทางเลือกของคุณภาพของคลัสเตอร์ และแสดงเป็นระยะห่างเฉลี่ยของแต่ละออบเจ็กต์คลัสเตอร์จากเซนทรอยด์ของคลัสเตอร์ซึ่งแสดงถึง “วัตถุเฉลี่ย” หรือจุดเฉลี่ยในพื้นที่สำหรับคลัสเตอร์

การสุ่มตัวอย่าง − การสุ่มตัวอย่างสามารถใช้เป็นแนวทางในการลดข้อมูลได้ เนื่องจากช่วยให้สามารถกำหนดชุดข้อมูลขนาดใหญ่โดยกลุ่มตัวอย่าง (หรือชุดย่อย) แบบสุ่มที่มีขนาดเล็กกว่ามาก