การลดมิติคืออะไร?

ในการลดมิติข้อมูล การเข้ารหัสหรือการแปลงข้อมูลจะถูกนำไปใช้เพื่อให้ได้ข้อมูลที่ลดลงหรือ "บีบอัด" ของข้อมูลดั้งเดิม หากข้อมูลเดิมสามารถสร้างขึ้นใหม่จากข้อมูลที่บีบอัดได้โดยไม่มีข้อมูลผิดพลาด การลดข้อมูลจะเรียกว่าการสูญเสียข้อมูล หากข้อมูลที่สร้างขึ้นใหม่เป็นเพียงการประมาณจากข้อมูลเดิม การลดข้อมูลจะเรียกว่าการสูญเสีย

การลดความสูญเสียมี 2 วิธี ดังนี้ −

การแปลงเวฟเล็ต − การแปลงเวฟเล็ตแบบไม่ต่อเนื่อง (DWT) เป็นเทคนิคการประมวลผลสัญญาณเชิงเส้นที่เมื่อนำไปใช้กับเวกเตอร์ข้อมูล X จะแปลงเป็นเวกเตอร์ที่แตกต่างกันเชิงตัวเลข X' ของสัมประสิทธิ์เวฟเล็ต เวกเตอร์สองตัวมีความยาวเท่ากัน เมื่อใช้เทคนิคนี้ในการลดข้อมูล จะถือว่าแต่ละทูเพิลเป็นเวกเตอร์ข้อมูล n มิติ นั่นคือ 𝑋=(x₁ ,x₂ ,…x_n )ระบุ n การวัดที่ทำบนทูเพิลจากแอตทริบิวต์ฐานข้อมูล n รายการ

DWT เกือบจะเกี่ยวข้องกับการแปลงฟูเรียร์แบบไม่ต่อเนื่อง (DFT) ซึ่งเป็นเทคนิคการประมวลผลสัญญาณที่มีไซน์และโคไซน์ โดยทั่วไป DWT จะได้รับการบีบอัดแบบสูญเสียข้อมูลที่ดีขึ้น นั่นคือถ้าค่าสัมประสิทธิ์จำนวนเท่ากันสำหรับ DWT และ DFT ของเวกเตอร์ข้อมูลที่กำหนด เวอร์ชัน DWT จะให้ค่าประมาณของข้อมูลดั้งเดิมที่แม่นยำยิ่งขึ้น ดังนั้น สำหรับการประมาณที่เทียบเท่ากัน DWT จึงต้องการพื้นที่น้อยกว่า DFT

การแปลงเวฟเล็ตสามารถใช้กับข้อมูลหลายมิติ รวมถึงดาต้าคิวบ์ ทำได้โดยนำการแปลงไปใช้กับมิติแรกก่อน จากนั้นจึงนำไปใช้กับมิติที่สอง เป็นต้น ความซับซ้อนในการคำนวณที่เกี่ยวข้องจะเป็นเส้นตรงสำหรับจำนวนเซลล์ในลูกบาศก์

การแปลงเวฟเล็ตให้ผลลัพธ์ที่ดีกับข้อมูลที่กระจัดกระจายหรือเบ้ และข้อมูลที่มีแอตทริบิวต์ที่สั่ง มีรายงานว่าการบีบอัดแบบ lossy โดยเวฟเล็ตนั้นดีกว่าการบีบอัด JPEG ซึ่งเป็นมาตรฐานทางการค้าในปัจจุบัน การแปลงเวฟเล็ตมีการใช้งานจริงมากมาย รวมถึงการบีบอัดภาพลายนิ้วมือ คอมพิวเตอร์วิทัศน์ การวิเคราะห์ข้อมูลอนุกรมเวลา และการล้างข้อมูล

การวิเคราะห์องค์ประกอบหลัก − การวิเคราะห์องค์ประกอบหลักเรียกอีกอย่างว่าวิธี Karhunen-Loeve หรือ KL มันสามารถค้นหาเวกเตอร์มุมฉาก k n มิติที่สามารถนำมาใช้เพื่อแสดงข้อมูลได้ดีที่สุด โดยที่ k ≤ n ข้อมูลเดิมถูกฉายลงในพื้นที่ที่เล็กกว่ามาก ซึ่งส่งผลให้มิติลดลง เป็นการรวมแก่นแท้ของแอตทริบิวต์โดยการสร้างชุดตัวแปรทางเลือกที่มีขนาดเล็กลง ข้อมูลเดิมสามารถฉายลงบนชุดที่เล็กกว่านี้ได้