Computer >> คอมพิวเตอร์ >  >> การเขียนโปรแกรม >> Python

จะล้างข้อมูลเพื่อคาดการณ์ประสิทธิภาพการใช้เชื้อเพลิงด้วยชุดข้อมูล Auto MPG โดยใช้ TensorFlow ได้อย่างไร


Tensorflow คือเฟรมเวิร์กแมชชีนเลิร์นนิงที่ให้บริการโดย Google เป็นเฟรมเวิร์กโอเพนซอร์ซที่ใช้ร่วมกับ Python เพื่อใช้อัลกอริทึม แอปพลิเคชันการเรียนรู้เชิงลึก และอื่นๆ อีกมากมาย

แพ็คเกจ 'tensorflow' สามารถติดตั้งบน Windows ได้โดยใช้บรรทัดโค้ดด้านล่าง -

pip install tensorflow

Tensor เป็นโครงสร้างข้อมูลที่ใช้ใน TensorFlow ช่วยเชื่อมต่อขอบในแผนภาพการไหล แผนภาพการไหลนี้เรียกว่า 'กราฟการไหลของข้อมูล' เทนเซอร์เป็นเพียงอาร์เรย์หลายมิติหรือรายการ

เป้าหมายเบื้องหลังปัญหาการถดถอยคือการคาดการณ์ผลลัพธ์ของตัวแปรต่อเนื่องหรือตัวแปรที่ไม่ต่อเนื่อง เช่น ราคา ความน่าจะเป็น ฝนจะตกหรือไม่ เป็นต้น

ชุดข้อมูลที่เราใช้เรียกว่าชุดข้อมูล 'Auto MPG' ประกอบด้วยการประหยัดเชื้อเพลิงของรถยนต์ในยุค 1970 และ 1980 ซึ่งรวมถึงคุณลักษณะต่างๆ เช่น น้ำหนัก แรงม้า การกระจัด และอื่นๆ ด้วยเหตุนี้ เราจึงต้องคาดการณ์ประสิทธิภาพการใช้เชื้อเพลิงของรถยนต์แต่ละคัน

เรากำลังใช้ Google Colaboratory เพื่อเรียกใช้โค้ดด้านล่าง Google Colab หรือ Colaboratory ช่วยเรียกใช้โค้ด Python บนเบราว์เซอร์และไม่ต้องมีการกำหนดค่าใดๆ และเข้าถึง GPU ได้ฟรี (หน่วยประมวลผลกราฟิก) Colaboratory สร้างขึ้นบน Jupyter Notebook

ต่อไปนี้เป็นข้อมูลโค้ดที่เราจะได้เห็นว่าจะล้างข้อมูลเพื่อคาดการณ์ประสิทธิภาพการใช้เชื้อเพลิงด้วยชุดข้อมูล Auto MPG โดยใช้ TensorFlow ได้อย่างไร -

ตัวอย่าง

print("Data cleaning has begun")
dataset.isna().sum()
dataset = dataset.dropna()
dataset['Origin'] = dataset['Origin'].map({1: 'USA', 2: 'Europe', 3: 'Japan'})

print("Data cleaning complete!")
dataset = pd.get_dummies(dataset, prefix='', prefix_sep='')

print("A sample of dataset after data cleaning :")
dataset.head(4)

เครดิตโค้ด − https://www.tensorflow.org/tutorials/keras/regression

ผลลัพธ์

Data cleaning has begun
Data cleaning complete!
A sample of dataset after data cleaning −



MPG กระบอกสูบ การเคลื่อนตัว แรงม้า น้ำหนัก อัตราเร่ง รุ่นปี ยุโรป ประเทศญี่ปุ่น สหรัฐอเมริกา
0 18.0 8 307.0 130.0 3504.0 12.0 70 0 0 1
1 15.0 8 350.0 165.0 3693.0 11.5 70 0 0 1
2 18.0 8 318.0 150.0 3436.0 11.0 70 0 0 1
3 16.0 8 304.0 150.0 3433.0 12.0 70 0 0 1

คำอธิบาย

  • การล้างข้อมูลเริ่มต้นด้วยการลบ 'nan' ที่มีอยู่ในชุดข้อมูล

  • ฟังก์ชัน 'map' ใช้เพื่อจับคู่ป้ายกำกับกับชื่อคอลัมน์

  • ตัวอย่างของชุดข้อมูลหลังการล้างข้อมูลจะแสดงบนคอนโซล