ข้อมูลก่อนการประมวลผลหมายถึงการล้างข้อมูล การลบข้อมูลที่ไม่ถูกต้อง สัญญาณรบกวน การแทนที่ข้อมูลด้วยค่าที่เกี่ยวข้อง และอื่นๆ
โดยทั่วไปการประมวลผลข้อมูลล่วงหน้าหมายถึงงานในการรวบรวมข้อมูลทั้งหมด (ซึ่งรวบรวมจากแหล่งข้อมูลต่างๆ หรือทรัพยากรเดียว) ในรูปแบบทั่วไปหรือเป็นชุดข้อมูลเดียวกัน (ขึ้นอยู่กับประเภทของข้อมูล) ผลลัพธ์ของขั้นตอนหนึ่งจะกลายเป็นอินพุตของขั้นตอนถัดไปเป็นต้น
ค่ากลางอาจต้องถูกลบออกจากข้อมูลที่ป้อนเพื่อให้ได้ผลลัพธ์ที่เฉพาะเจาะจง ให้เราเข้าใจว่าสามารถทำได้โดยใช้ไลบรารี scikit-learn
ตัวอย่าง
import numpy as np from sklearn import preprocessing input_data = np.array([ [34.78, 31.9, -65.5], [-16.5, 2.45, -83.5], [0.5, -87.98, 45.62], [5.9, 2.38, -55.82]]) print("Mean value is : ", input_data.mean(axis=0)) print("Standard deviation value is : ", input_data.std(axis=0)) data_scaled = preprocessing.scale(input_data) print("Mean value has been removed ", data_scaled.mean(axis=0)) print("Standard deviation has been removed ", data_scaled.std(axis=0))
ผลลัพธ์
Mean value is : [ 6.17 -12.8125 -39.8 ] Standard deviation value is : [18.4708067 45.03642047 50.30754615] Mean value has been removed [-2.60208521e-18 -8.32667268e-17 -1.11022302e-16] Standard deviation has been removed [1. 1. 1.]
คำอธิบาย
-
แพ็คเกจที่จำเป็นจะถูกนำเข้า
-
ข้อมูลอินพุตถูกสร้างขึ้นโดยใช้ไลบรารี Numpy
-
ค่าเฉลี่ยและค่าเบี่ยงเบนมาตรฐานจะถูกคำนวณ
-
จะแสดงบนคอนโซล
-
ฟังก์ชัน "data_scaled" ใช้เพื่อลบค่าเฉลี่ยและค่าเบี่ยงเบนมาตรฐานออกจากข้อมูล
-
ข้อมูลค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานที่ลบออกนี้จะแสดงบนคอนโซล