Computer >> คอมพิวเตอร์ >  >> การเขียนโปรแกรม >> การเขียนโปรแกรม

การลดข้อมูลคืออะไร


การขุดข้อมูลถูกนำไปใช้กับข้อมูลที่เลือกในฐานข้อมูลจำนวนมาก เมื่อการวิเคราะห์ข้อมูลและการขุดเสร็จสิ้นกับข้อมูลจำนวนมาก การประมวลผลจะใช้เวลานานมาก ซึ่งทำให้ไม่สามารถปฏิบัติได้และเป็นไปไม่ได้ สามารถลดเวลาในการประมวลผลสำหรับการวิเคราะห์ข้อมูล เทคนิคการลดข้อมูลจะใช้เพื่อให้ได้การแสดงชุดข้อมูลที่ลดลงซึ่งมีปริมาณน้อยกว่ามากโดยการรักษาความสมบูรณ์ของข้อมูลต้นฉบับ การลดข้อมูลจะทำให้ประสิทธิภาพของกระบวนการขุดข้อมูลดีขึ้นซึ่งให้ผลการวิเคราะห์ที่เหมือนกัน

การลดข้อมูลมีจุดมุ่งหมายเพื่อให้คำจำกัดความกระชับยิ่งขึ้น เมื่อขนาดข้อมูลมีขนาดเล็กลง การใช้อัลกอริธึมที่ซับซ้อนและมีราคาสูงในการคำนวณจะง่ายกว่า การลดลงของข้อมูลอาจขึ้นอยู่กับจำนวนแถว (ระเบียน) หรือจำนวนคอลัมน์ (ขนาด)

การลดข้อมูลมีกลยุทธ์ต่างๆ ดังนี้ -

การรวมลูกบาศก์ข้อมูล − ในวิธีนี้ ซึ่งการดำเนินการรวมจะใช้กับข้อมูลในการสร้าง data cube ข้อมูลเหล่านี้รวมถึงยอดขายของ All Electronics ต่อไตรมาสสำหรับปี 2545 ถึง 2547 โดยมีความสนใจในยอดขายประจำปี (รวมต่อปี) มากกว่ายอดรวมต่อไตรมาส ดังนั้นข้อมูลจึงสามารถรวมเข้าด้วยกันเพื่อให้ข้อมูลที่เป็นผลลัพธ์สรุปยอดขายรวมต่อปีแทนที่จะเป็นต่อไตรมาส ชุดข้อมูลที่ได้จะมีปริมาณน้อยกว่า โดยไม่ทำให้ข้อมูลที่จำเป็นสำหรับงานวิเคราะห์สูญหาย

การเลือกชุดย่อยของแอตทริบิวต์ − ในวิธีนี้ ซึ่งสามารถค้นพบและลบแอตทริบิวต์หรือมิติที่ไม่เกี่ยวข้อง ไม่เกี่ยวข้องเล็กน้อย หรือซ้ำซ้อน ชุดข้อมูลสำหรับการวิเคราะห์สามารถรวมแอตทริบิวต์ได้หลายร้อยรายการ ซึ่งบางส่วนอาจไม่เกี่ยวข้องกับงานขุดหรือซ้ำซ้อน ตัวอย่างเช่น หากงานคือการเตรียมลูกค้าว่ามีแนวโน้มว่าจะซื้อซีดีใหม่ยอดนิยมที่ All Electronics หรือไม่เมื่อได้รับแจ้งการขาย คุณลักษณะเช่นหมายเลขโทรศัพท์ของลูกค้ามักจะไม่เกี่ยวข้องซึ่งแตกต่างจากคุณลักษณะเช่น อายุหรือ music_taste

ลดขนาด − กลไกการเข้ารหัสใช้เพื่อลดขนาดชุดข้อมูล ในการลดมิติข้อมูล การเข้ารหัสหรือการแปลงข้อมูลถูกนำมาใช้เพื่อให้ได้ข้อมูลที่ลดลงหรือ "บีบอัด" ของข้อมูลต้นฉบับ หากข้อมูลเดิมสามารถสร้างใหม่จากข้อมูลที่บีบอัดได้โดยไม่สูญเสียข้อมูล การลดข้อมูลจะเรียกว่าแบบไม่สูญเสีย

ลดจำนวน − ข้อมูลจะถูกกู้คืนหรือคาดการณ์โดยใช้การแสดงข้อมูลทางเลือกที่มีขนาดเล็กกว่า ซึ่งรวมถึงโมเดลพาราเมทริก (ซึ่งจำเป็นสำหรับการบันทึกเฉพาะพารามิเตอร์ของโมเดลแทนที่จะเป็นข้อมูลจริง) หรือเมธอดที่ไม่ใช่พารามิเตอร์ ซึ่งรวมถึงการจัดกลุ่ม การสุ่มตัวอย่าง และการใช้ฮิสโตแกรม

การแยกส่วนและการสร้างลำดับชั้นแนวคิด − ในวิธีนี้ โดยที่ค่าข้อมูลดิบสำหรับแอตทริบิวต์จะถูกแทนที่ด้วยช่วงหรือระดับแนวคิดที่สูงกว่า การแยกส่วนของข้อมูลเป็นรูปแบบหนึ่งของการลดจำนวนลงซึ่งเป็นประโยชน์อย่างมากสำหรับการผลิตลำดับชั้นแนวคิดโดยอัตโนมัติ การแยกส่วนและการสร้างลำดับชั้นแนวคิดเป็นเครื่องมือแบบไดนามิกสำหรับการทำเหมืองข้อมูล โดยช่วยให้ทำเหมืองข้อมูลในระดับต่างๆ ของนามธรรมได้