Computer >> คอมพิวเตอร์ >  >> การเขียนโปรแกรม >> การเขียนโปรแกรม

ความแตกต่างระหว่างการลดมิติและการลดจำนวน?


การลดขนาด

ในการลดมิติข้อมูล การเข้ารหัสหรือการแปลงข้อมูลใช้เพื่อเข้าถึงการแสดงข้อมูลที่ลดลงหรือ "บีบอัด" ของข้อมูลต้นฉบับ หากข้อมูลเดิมสามารถสร้างขึ้นใหม่จากข้อมูลที่บีบอัดได้โดยไม่สูญเสียข้อมูล การลดข้อมูลจะเรียกว่าไม่สูญเสียข้อมูล หากข้อมูลที่สร้างขึ้นใหม่เป็นเพียงการประมาณจากข้อมูลเดิม การลดข้อมูลจะเรียกว่าการสูญเสีย

DWT เกือบจะเกี่ยวข้องกับการแปลงฟูเรียร์แบบไม่ต่อเนื่อง (DFT) ซึ่งเป็นเทคนิคการประมวลผลสัญญาณที่มีไซน์และโคไซน์ โดยทั่วไป DWT จะได้รับการบีบอัดแบบสูญเสียข้อมูลที่ดีขึ้น นั่นคือถ้าค่าสัมประสิทธิ์จำนวนเท่ากันสำหรับ DWT และ DFT ของเวกเตอร์ข้อมูลที่กำหนด เวอร์ชัน DWT จะสนับสนุนการประมาณค่าข้อมูลต้นฉบับที่แม่นยำยิ่งขึ้น ดังนั้น สำหรับการประมาณที่เท่ากัน DWT จึงต้องการพื้นที่น้อยกว่า DFT

ลดจำนวน

ในการลดจำนวนลง ปริมาณข้อมูลจะลดลงโดยการเลือกรูปแบบการแสดงข้อมูลทางเลือกที่เล็กกว่า เทคนิคเหล่านี้อาจเป็นแบบพาราเมตริกหรือแบบไม่ใช้พารามิเตอร์ก็ได้ สำหรับวิธีพาราเมตริก ตัวแบบสามารถประมาณข้อมูลได้ ดังนั้นจึงต้องบันทึกเฉพาะพารามิเตอร์ข้อมูล แทนที่จะเป็นข้อมูลจริง เช่น โมเดลบันทึกเชิงเส้น เมธอดที่ไม่ใช่พารามิเตอร์ใช้สำหรับจัดเก็บการแสดงข้อมูลที่ลดลงซึ่งรวมถึงฮิสโตแกรม การจัดกลุ่ม และการสุ่มตัวอย่าง

ให้เราดูการเปรียบเทียบระหว่างการลดมิติและการลดจำนวน

ลดขนาด ลดจำนวน
ในการลดขนาด การเข้ารหัสหรือการแปลงข้อมูลจะถูกนำไปใช้เพื่อให้ได้ข้อมูลดั้งเดิมที่ลดลงหรือบีบอัด ในการลดจำนวนลง ปริมาณข้อมูลจะลดลงโดยการเลือกรูปแบบการแทนข้อมูลที่มีขนาดเล็กลง
ในการลดขนาดมิติ การแปลงเวฟเล็ตแบบไม่ต่อเนื่อง (DWT) เป็นเทคนิคการประมวลผลสัญญาณเชิงเส้นที่เมื่อใช้เป็นเวกเตอร์ข้อมูล X จะเปลี่ยนเวกเตอร์ดังกล่าวเป็นเวกเตอร์ที่แตกต่างกันในเชิงตัวเลข X' ของสัมประสิทธิ์เวฟเล็ต
เวกเตอร์สองตัวมีความยาวเท่ากัน เมื่อใช้เทคนิคนี้กับการลดข้อมูล จะถือว่าแต่ละทูเพิลเป็นเวกเตอร์ข้อมูล n มิติ นั่นคือ X=(x1 ,x2 ,…xn ) แสดง n การวัดที่ทำบนทูเพิลจากแอตทริบิวต์ฐานข้อมูล n รายการ
ในการลดจำนวนลง แบบจำลองการถดถอยและบันทึกเชิงเส้นสามารถใช้ในการประมาณข้อมูลที่กำหนดได้ ในการถดถอยเชิงเส้น ข้อมูลจะถูกจำลองให้พอดีกับเส้นตรง
ตัวอย่างเช่น ตัวแปรสุ่ม y (เรียกว่าตัวแปรตอบสนอง) สามารถจำลองเป็นฟังก์ชันเชิงเส้นของตัวแปรสุ่มอื่น x (เรียกว่าตัวแปรทำนาย) ด้วยสมการ y =wx+b โดยที่ความแปรปรวนของ y จะถือว่าคงที่
ใช้สำหรับลบแอตทริบิวต์ที่ไม่เกี่ยวข้องและซ้ำซ้อน เป็นเพียงเทคนิคการแสดงข้อมูลต้นฉบับให้มีขนาดเล็กลง
ในเทคนิคนี้ ข้อมูลบางส่วนอาจสูญหายซึ่งไม่เหมาะสม ในวิธีนี้ จะไม่มีการสูญหายของข้อมูลแต่ข้อมูลทั้งหมดจะแสดงในรูปแบบที่เล็กกว่า