Computer >> คอมพิวเตอร์ >  >> การเขียนโปรแกรม >> การเขียนโปรแกรม

การล้างข้อมูลคืออะไร?


การล้างข้อมูลกำหนดเพื่อล้างข้อมูลโดยการเติมค่าที่หายไป ทำให้ข้อมูลที่มีเสียงดังราบรื่น วิเคราะห์และลบค่าผิดปกติ และขจัดความไม่สอดคล้องกันในข้อมูล บางครั้งข้อมูลที่รายละเอียดหลายระดับอาจแตกต่างไปจากที่ต้องการ เช่น อาจต้องมีช่วงอายุ 20-30, 30-40, 40-50 และข้อมูลที่นำเข้าจะมีวันเกิดด้วย ข้อมูลสามารถล้างได้โดยแบ่งข้อมูลออกเป็นประเภทที่เหมาะสม

ประเภทของการล้างข้อมูล

การล้างข้อมูลมีหลายประเภทดังนี้ −

  • ไม่มีค่า − ค่าที่หายไปจะถูกเติมด้วยค่าที่เหมาะสม มีวิธีการกรอกค่าดังนี้

    • tuple จะถูกละเว้นเมื่อมีแอตทริบิวต์หลายค่าที่หายไป

    • ค่าจะถูกเติมด้วยตนเองสำหรับค่าที่หายไป

    • ค่าคงที่ส่วนกลางเดียวกันสามารถเติมค่าได้

    • ค่าเฉลี่ยแอตทริบิวต์สามารถเติมค่าที่ขาดหายไปได้

    • ค่าที่น่าจะเป็นไปได้มากที่สุดสามารถเติมค่าที่ขาดหายไปได้

  • ข้อมูลที่มีเสียงดัง − สัญญาณรบกวนเป็นข้อผิดพลาดแบบสุ่มหรือความแปรปรวนในตัวแปรที่วัดได้ มีวิธีการปรับให้เรียบเพื่อจัดการกับเสียงรบกวนดังต่อไปนี้ -

    • ถังเก็บ − วิธีการเหล่านี้ปรับค่าข้อมูลการจัดเรียงให้ราบรื่นโดยพิจารณาจาก "ย่านใกล้เคียง" โดยเฉพาะค่ารอบข้อมูลที่มีเสียงดัง ค่าที่จัดเรียงจะถูกกระจายไปยังที่ฝากข้อมูลหรือถังขยะหลายถัง เนื่องจากวิธีการ binning เป็นการปรึกษากับค่าใกล้เคียง พวกเขาจึงใช้การปรับให้เรียบในท้องถิ่น

    • การถดถอย − ข้อมูลสามารถทำให้เรียบได้โดยการปรับข้อมูลให้เข้ากับฟังก์ชัน รวมถึงการถดถอยด้วย การถดถอยเชิงเส้นประกอบด้วยการค้นหาเส้น "ดีที่สุด" เพื่อให้พอดีกับสองแอตทริบิวต์ (หรือตัวแปร) เพื่อให้แอตทริบิวต์หนึ่งสามารถใช้เพื่อคาดการณ์แอตทริบิวต์อื่นได้ การถดถอยเชิงเส้นพหุคูณเป็นพัฒนาการของการถดถอยเชิงเส้น ซึ่งมีแอตทริบิวต์มากกว่า 2 รายการและข้อมูลจะพอดีกับพื้นที่หลายมิติ

    • การจัดกลุ่ม − การจัดกลุ่มรองรับการระบุค่าผิดปกติ ค่าเดียวกันจะถูกจัดระเบียบเป็นกลุ่ม และค่าที่อยู่นอกคลัสเตอร์เรียกว่าค่าผิดปกติ

    • คอมพิวเตอร์รวมกับการตรวจสอบโดยมนุษย์ − ค่าผิดปกติยังสามารถรับรู้ได้ด้วยการสนับสนุนของคอมพิวเตอร์และการตรวจสอบของมนุษย์ รูปแบบค่าผิดปกติอาจเป็นคำอธิบายหรือขยะก็ได้ รูปแบบที่มีค่าความประหลาดใจสามารถส่งออกไปยังรายการได้

  • ข้อมูลไม่สอดคล้องกัน − สามารถบันทึกความไม่สอดคล้องกันในธุรกรรมต่างๆ ระหว่างการป้อนข้อมูล หรือเกิดจากการรวมข้อมูลจากหลายฐานข้อมูล ความซ้ำซ้อนบางอย่างสามารถรับรู้ได้โดยการวิเคราะห์สหสัมพันธ์ การบูรณาการข้อมูลจากแหล่งต่างๆ อย่างถูกต้องและเหมาะสมสามารถลดและหลีกเลี่ยงความซ้ำซ้อนได้