สมมติว่า คุณมี dataframe และจำนวนคอลัมน์ค่าที่ขาดหายไปขั้นต่ำคือ
DataFrame is: Id Salary Age 0 1.0 20000.0 22.0 1 2.0 NaN 23.0 2 3.0 50000.0 NaN 3 NaN 40000.0 25.0 4 5.0 80000.0 NaN 5 6.0 NaN 25.0 6 7.0 350000.0 26.0 7 8.0 55000.0 27.0 8 9.0 60000.0 NaN 9 10.0 70000.0 24.0 lowest missing value column is: Id
เพื่อแก้ปัญหานี้ เราจะทำตามขั้นตอนด้านล่าง -
วิธีแก้ปัญหา
-
กำหนด dataframe ที่มีสามคอลัมน์ Id, Salary และ Age
-
ตั้งค่า df.apply() ภายในฟังก์ชันแลมบ์ดาเพื่อตรวจสอบผลรวมของค่า null จากแถวทั้งหมด
df = df.apply(lambda x: x.isnull().sum(),axis=0)
-
สุดท้าย พิมพ์ค่าต่ำสุดจาก df โดยใช้ df.idxmin()
df.idxmin()
ตัวอย่าง
มาดูโค้ดด้านล่างเพื่อทำความเข้าใจกันดีกว่า −
import pandas as pd import numpy as np df = pd.DataFrame({'Id':[1,2,3,np.nan,5,6,7,8,9,10], 'Salary':[20000,np.nan,50000,40000,80000,np.nan,350000,55000,60000,70000], 'Age': [22,23,np.nan,25,np.nan,25,26,27,np.nan,24] }) print("DataFrame is:\n",df) df = df.apply(lambda x: x.isnull().sum(),axis=0) print("lowest missing value column is:",df.idxmin())
ผลลัพธ์
DataFrame is: Id Salary Age 0 1.0 20000.0 22.0 1 2.0 NaN 23.0 2 3.0 50000.0 NaN 3 NaN 40000.0 25.0 4 5.0 80000.0 NaN 5 6.0 NaN 25.0 6 7.0 350000.0 26.0 7 8.0 55000.0 27.0 8 9.0 60000.0 NaN 9 10.0 70000.0 24.0 lowest missing value column is: Id