ข้อมูลก่อนการประมวลผลหมายถึงการล้างข้อมูล การลบข้อมูลที่ไม่ถูกต้อง สัญญาณรบกวน การแทนที่ข้อมูลด้วยค่าที่เกี่ยวข้อง และอื่นๆ
ไม่ได้หมายถึงข้อมูลข้อความเสมอไป มันอาจเป็นภาพหรือการประมวลผลวิดีโอเช่นกัน เป็นขั้นตอนสำคัญในไปป์ไลน์แมชชีนเลิร์นนิง
การประมวลผลข้อมูลล่วงหน้าโดยทั่วไปหมายถึงงานในการรวบรวมข้อมูลทั้งหมด (ซึ่งรวบรวมจากแหล่งข้อมูลต่างๆ หรือทรัพยากรเดียว) ให้อยู่ในรูปแบบทั่วไปหรือเป็นชุดข้อมูลเดียวกัน (ขึ้นอยู่กับประเภทของข้อมูล)
สิ่งนี้ทำเพื่อให้อัลกอริธึมการเรียนรู้สามารถเรียนรู้จากชุดข้อมูลนี้และให้ผลลัพธ์ที่เกี่ยวข้องด้วยความแม่นยำสูง เนื่องจากข้อมูลในโลกแห่งความเป็นจริงไม่เคยอยู่ในอุดมคติ จึงมีความเป็นไปได้ที่ข้อมูลนั้นจะไม่มีเซลล์ ข้อผิดพลาด ค่าผิดปกติ ความคลาดเคลื่อนในคอลัมน์ และอื่นๆ อีกมากมาย
บางครั้ง รูปภาพอาจจัดแนวไม่ถูกต้อง หรืออาจไม่ชัดเจน หรืออาจมีขนาดใหญ่มาก เป้าหมายของการประมวลผลล่วงหน้าคือการขจัดความคลาดเคลื่อนและข้อผิดพลาดเหล่านี้ การประมวลผลข้อมูลล่วงหน้าไม่ใช่งานเดียว แต่เป็นชุดของงานที่ดำเนินการทีละขั้นตอน
ผลลัพธ์ของขั้นตอนหนึ่งจะกลายเป็นอินพุตของขั้นตอนถัดไปเป็นต้น
ให้เรายกตัวอย่างการแปลงค่าตัวเลขเป็นค่าบูลีน -
ตัวอย่าง
import numpy as np from sklearn import preprocessing input_data = np.array([[34.78, 31.9, -65.5],[-16.5, 2.45, -83.5],[0.5, -87.98, 45.62], [5.9, 2.38, -55.82]]) data_binarized = preprocessing.Binarizer(threshold=0.5).transform(input_data) print("\Values converted from numeric to Boolean :\n", data_binarized)
ผลลัพธ์
Values converted from numeric to Boolean : [[1. 1. 0.] [0. 1. 0.] [0. 0. 1.] [1. 1. 0.]]
คำอธิบาย
- นำเข้าแพ็คเกจที่จำเป็น
- ข้อมูลที่ป้อนสร้างขึ้นโดยใช้ไลบรารี Numpy
- ฟังก์ชัน 'Binarizer' ที่มีอยู่ในคลาส 'preprocessing' ของ sklearn ใช้เพื่อแปลงค่าตัวเลขเป็นค่าบูลีน
- ค่าบูลีนโดยทั่วไปหมายถึง 1 และ 0 เท่านั้น
- ข้อมูลที่แปลงนี้จะถูกพิมพ์บนคอนโซล