scikit เรียนรู้ไลบรารี่ใช้เพื่อประมวลผลข้อมูลล่วงหน้าใน Python ได้อย่างไร

ข้อมูลก่อนการประมวลผลหมายถึงการล้างข้อมูล การลบข้อมูลที่ไม่ถูกต้อง สัญญาณรบกวน การแทนที่ข้อมูลด้วยค่าที่เกี่ยวข้อง และอื่นๆ

ไม่ได้หมายถึงข้อมูลข้อความเสมอไป มันอาจเป็นภาพหรือการประมวลผลวิดีโอเช่นกัน เป็นขั้นตอนสำคัญในไปป์ไลน์แมชชีนเลิร์นนิง

การประมวลผลข้อมูลล่วงหน้าโดยทั่วไปหมายถึงงานในการรวบรวมข้อมูลทั้งหมด (ซึ่งรวบรวมจากแหล่งข้อมูลต่างๆ หรือทรัพยากรเดียว) ให้อยู่ในรูปแบบทั่วไปหรือเป็นชุดข้อมูลเดียวกัน (ขึ้นอยู่กับประเภทของข้อมูล)

สิ่งนี้ทำเพื่อให้อัลกอริธึมการเรียนรู้สามารถเรียนรู้จากชุดข้อมูลนี้และให้ผลลัพธ์ที่เกี่ยวข้องด้วยความแม่นยำสูง เนื่องจากข้อมูลในโลกแห่งความเป็นจริงไม่เคยอยู่ในอุดมคติ จึงมีความเป็นไปได้ที่ข้อมูลนั้นจะไม่มีเซลล์ ข้อผิดพลาด ค่าผิดปกติ ความคลาดเคลื่อนในคอลัมน์ และอื่นๆ อีกมากมาย

บางครั้ง รูปภาพอาจจัดแนวไม่ถูกต้อง หรืออาจไม่ชัดเจน หรืออาจมีขนาดใหญ่มาก เป้าหมายของการประมวลผลล่วงหน้าคือการขจัดความคลาดเคลื่อนและข้อผิดพลาดเหล่านี้ การประมวลผลข้อมูลล่วงหน้าไม่ใช่งานเดียว แต่เป็นชุดของงานที่ดำเนินการทีละขั้นตอน

ผลลัพธ์ของขั้นตอนหนึ่งจะกลายเป็นอินพุตของขั้นตอนถัดไปเป็นต้น

ให้เรายกตัวอย่างการแปลงค่าตัวเลขเป็นค่าบูลีน -

ตัวอย่าง

import numpy as np
from sklearn import preprocessing
input_data = np.array([[34.78, 31.9, -65.5],[-16.5, 2.45, -83.5],[0.5, -87.98, 45.62],
[5.9, 2.38, -55.82]])
data_binarized = preprocessing.Binarizer(threshold=0.5).transform(input_data)
print("\Values converted from numeric to Boolean :\n", data_binarized)

ผลลัพธ์

Values converted from numeric to Boolean :
[[1. 1. 0.]
[0. 1. 0.]
[0. 0. 1.]
[1. 1. 0.]]

คำอธิบาย

นำเข้าแพ็คเกจที่จำเป็น
ข้อมูลที่ป้อนสร้างขึ้นโดยใช้ไลบรารี Numpy
ฟังก์ชัน 'Binarizer' ที่มีอยู่ในคลาส 'preprocessing' ของ sklearn ใช้เพื่อแปลงค่าตัวเลขเป็นค่าบูลีน
ค่าบูลีนโดยทั่วไปหมายถึง 1 และ 0 เท่านั้น
ข้อมูลที่แปลงนี้จะถูกพิมพ์บนคอนโซล