การล้างข้อมูลกำหนดเพื่อล้างข้อมูลโดยการเติมค่าที่หายไป ทำให้ข้อมูลที่มีเสียงดังราบรื่น วิเคราะห์และลบค่าผิดปกติ และขจัดความไม่สอดคล้องกันในข้อมูล บางครั้งข้อมูลที่รายละเอียดหลายระดับอาจแตกต่างไปจากที่ต้องการ เช่น อาจต้องมีช่วงอายุ 20-30, 30-40, 40-50 และข้อมูลที่นำเข้าจะมีวันเกิดด้วย ข้อมูลสามารถล้างได้โดยแบ่งข้อมูลออกเป็นประเภทที่เหมาะสม
ประเภทของการล้างข้อมูล
การล้างข้อมูลมีหลายประเภทดังนี้ −
-
ไม่มีค่า − ค่าที่หายไปจะถูกเติมด้วยค่าที่เหมาะสม มีวิธีการกรอกค่าดังนี้
-
tuple จะถูกละเว้นเมื่อมีแอตทริบิวต์หลายค่าที่หายไป
-
ค่าจะถูกเติมด้วยตนเองสำหรับค่าที่หายไป
-
ค่าคงที่ส่วนกลางเดียวกันสามารถเติมค่าได้
-
ค่าเฉลี่ยแอตทริบิวต์สามารถเติมค่าที่ขาดหายไปได้
-
ค่าที่น่าจะเป็นไปได้มากที่สุดสามารถเติมค่าที่ขาดหายไปได้
-
-
ข้อมูลที่มีเสียงดัง − สัญญาณรบกวนเป็นข้อผิดพลาดแบบสุ่มหรือความแปรปรวนในตัวแปรที่วัดได้ มีวิธีการปรับให้เรียบเพื่อจัดการกับเสียงรบกวนดังต่อไปนี้ -
-
ถังเก็บ − วิธีการเหล่านี้ปรับค่าข้อมูลการจัดเรียงให้ราบรื่นโดยพิจารณาจาก "ย่านใกล้เคียง" โดยเฉพาะค่ารอบข้อมูลที่มีเสียงดัง ค่าที่จัดเรียงจะถูกกระจายไปยังที่ฝากข้อมูลหรือถังขยะหลายถัง เนื่องจากวิธีการ binning เป็นการปรึกษากับค่าใกล้เคียง พวกเขาจึงใช้การปรับให้เรียบในท้องถิ่น
-
การถดถอย − ข้อมูลสามารถทำให้เรียบได้โดยการปรับข้อมูลให้เข้ากับฟังก์ชัน รวมถึงการถดถอยด้วย การถดถอยเชิงเส้นประกอบด้วยการค้นหาเส้น "ดีที่สุด" เพื่อให้พอดีกับสองแอตทริบิวต์ (หรือตัวแปร) เพื่อให้แอตทริบิวต์หนึ่งสามารถใช้เพื่อคาดการณ์แอตทริบิวต์อื่นได้ การถดถอยเชิงเส้นพหุคูณเป็นพัฒนาการของการถดถอยเชิงเส้น ซึ่งมีแอตทริบิวต์มากกว่า 2 รายการและข้อมูลจะพอดีกับพื้นที่หลายมิติ
-
การจัดกลุ่ม − การจัดกลุ่มรองรับการระบุค่าผิดปกติ ค่าเดียวกันจะถูกจัดระเบียบเป็นกลุ่ม และค่าที่อยู่นอกคลัสเตอร์เรียกว่าค่าผิดปกติ
-
คอมพิวเตอร์รวมกับการตรวจสอบโดยมนุษย์ − ค่าผิดปกติยังสามารถรับรู้ได้ด้วยการสนับสนุนของคอมพิวเตอร์และการตรวจสอบของมนุษย์ รูปแบบค่าผิดปกติอาจเป็นคำอธิบายหรือขยะก็ได้ รูปแบบที่มีค่าความประหลาดใจสามารถส่งออกไปยังรายการได้
-
-
ข้อมูลไม่สอดคล้องกัน − สามารถบันทึกความไม่สอดคล้องกันในธุรกรรมต่างๆ ระหว่างการป้อนข้อมูล หรือเกิดจากการรวมข้อมูลจากหลายฐานข้อมูล ความซ้ำซ้อนบางอย่างสามารถรับรู้ได้โดยการวิเคราะห์สหสัมพันธ์ การบูรณาการข้อมูลจากแหล่งต่างๆ อย่างถูกต้องและเหมาะสมสามารถลดและหลีกเลี่ยงความซ้ำซ้อนได้