Dataframe เป็นโครงสร้างข้อมูลสองมิติ โดยที่ข้อมูลจะถูกจัดเก็บในรูปแบบตาราง ในรูปแบบของแถวและคอลัมน์ สามารถแสดงเป็นตารางข้อมูล SQL หรือการแสดงแผ่นงาน Excel ได้
สามารถสร้างได้โดยใช้ตัวสร้างต่อไปนี้ -
pd.Dataframe(data, index, columns, dtype, copy)
ก่อนหน้านี้เราได้เห็นวิธีการที่คอลัมน์ใหม่ถูกสร้างขึ้นเป็นโครงสร้างข้อมูลของซีรีส์ สิ่งนี้ถูกสร้างดัชนีไปที่ดาต้าเฟรมดั้งเดิมและด้วยเหตุนี้จึงถูกเพิ่มเข้าไปในดาต้าเฟรม
ให้เราใช้วิธีที่เราสามารถสร้างคอลัมน์โดยใช้คอลัมน์ที่มีอยู่แล้วของ dataframe สิ่งนี้มีประโยชน์เมื่อเราจำเป็นต้องคำนวณคอลัมน์ที่มีอยู่แล้วและเก็บผลลัพธ์ไว้ในคอลัมน์ใหม่ -
ตัวอย่าง
import pandas as pd my_data = {'ab' : pd.Series([1, 8, 7], index=['a', 'b', 'c']), 'cd' : pd.Series([1, 2, 0, 9], index=['a', 'b', 'c', 'd']), 'ef' :pd.Series([56, 78, 32],index=['a','b','c'])} my_df = pd.DataFrame(my_data) print("The dataframe is :") print(my_df) my_df['gh'] = my_df['ab'] + my_df['ef'] print("After adding column 0 and 2 to the dataframe, :") print(my_df)
ผลลัพธ์
The dataframe is : ab cd ef a 1.0 1 56.0 b 8.0 2 78.0 c 7.0 0 32.0 d NaN 9 NaN After adding column 0 and 2 to the dataframe, : ab cd ef gh a 1.0 1 56.0 57.0 b 8.0 2 78.0 86.0 c 7.0 0 32.0 39.0 d NaN 9 NaN NaN
คำอธิบาย
-
ไลบรารีที่จำเป็นจะถูกนำเข้า และให้ชื่อแทนเพื่อความสะดวกในการใช้งาน
-
ค่าพจนานุกรมที่ประกอบด้วยคีย์และค่าจะถูกสร้างขึ้น โดยที่ค่านั้นเป็นโครงสร้างข้อมูลแบบอนุกรม
-
มีการสร้างค่าพจนานุกรมดังกล่าวหลายค่า
-
พจนานุกรมนี้จะถูกส่งต่อไปเป็นพารามิเตอร์ไปยังฟังก์ชัน 'Dataframe' ที่มีอยู่ในไลบรารี 'pandas'
-
ดาต้าเฟรมถูกสร้างขึ้นโดยส่งพจนานุกรมเป็นพารามิเตอร์ไป
-
คอลัมน์ใหม่จะถูกสร้างดัชนีไปที่ dataframe และคอลัมน์ที่ 0 และ 2 จะถูกเพิ่มเพื่อสร้างคอลัมน์ใหม่นี้
-
พิมพ์ดาต้าเฟรมบนคอนโซล
หมายเหตุ − คำว่า 'NaN' หมายถึง 'ไม่ใช่ตัวเลข' ซึ่งหมายความว่าค่า [row,col] เฉพาะไม่มีรายการที่ถูกต้อง