จะเลือกที่ใหญ่ที่สุดของแต่ละกลุ่มใน Python Pandas DataFrame ได้อย่างไร

แนะนำตัว

หนึ่งในการดำเนินการพื้นฐานและทั่วไปที่ต้องทำระหว่างการวิเคราะห์ข้อมูลคือการเลือกแถวที่มีค่ามากที่สุดของบางคอลัมน์ภายในกลุ่ม ในโพสต์นี้ ฉันจะแสดงวิธีค้นหากลุ่มที่ใหญ่ที่สุดของแต่ละกลุ่มภายใน DataFrame

ปัญหา..

ให้เราเข้าใจภารกิจก่อน สมมติว่าคุณได้รับชุดข้อมูลภาพยนตร์และขอรายชื่อภาพยนตร์ที่ได้รับความนิยมมากที่สุดในแต่ละปีตามความนิยม

ทำอย่างไร..

1.เตรียมข้อมูล

Google เต็มไปด้วยชุดข้อมูล ฉันมักจะใช้ kaggle.com เพื่อรับชุดข้อมูลที่ฉันต้องการสำหรับการวิเคราะห์ข้อมูลของฉัน เข้าสู่ระบบ kaggle.com และค้นหาภาพยนตร์ได้ตามสบาย ดาวน์โหลดชุดข้อมูลภาพยนตร์ไปยังไดเร็กทอรีและนำเข้าไปยัง Pandas DataFrame

หากคุณดาวน์โหลดข้อมูลเช่นเดียวกับฉันจาก kaggle.com โปรดกดถูกใจผู้ที่ช่วยเหลือข้อมูลของคุณ

import pandas as pd
import numpy as np
movies = pd.read_csv("https://raw.githubusercontent.com/sasankac/TestDataSet/master/movies_data.csv")

# see sample 5 rows
print(f"Output \n\n*** {movies.sample(n=5)} ")

ผลลัพธ์

*** budget id original_language original_title popularity \
2028 22000000 235260 en Son of God 9.175762
2548 0 13411 en Malibu's Most Wanted 7.314796
3279 8000000 26306 en Prefontaine 8.717235
3627 5000000 10217 en The Sweet Hereafter 7.673124
4555 0 98568 en Enter Nowhere 3.637857

release_date revenue runtime status title \
2028 28/02/2014 67800064 138.0 Released Son of God
2548 10/04/2003 0 86.0 Released Malibu's Most Wanted
3279 24/01/1997 589304 106.0 Released Prefontaine
3627 14/05/1997 3263585 112.0 Released The Sweet Hereafter
4555 22/10/2011 0 90.0 Released Enter Nowhere

vote_average vote_count
2028 5.9 83
2548 4.7 77
3279 6.7 21
3627 6.8 103
4555 6.5 49

2. ทำการวิเคราะห์ข้อมูลพื้นฐานเพื่อทำความเข้าใจข้อมูล

# Identify the data-types
print(f"Output \n*** Datatypes are {movies.dtypes} ")

ผลลัพธ์

*** Datatypes are budget int64
id int64
original_language object
original_title object
popularity float64
release_date object
revenue int64
runtime float64
status object
title object
vote_average float64
vote_count int64
dtype: object

2. ตอนนี้ ถ้าเราต้องการบันทึกการใช้หน่วยความจำจำนวนมาก เราสามารถแปลงประเภทข้อมูลของ float64 และ int64 ได้ แต่เราต้องระวังและทำการบ้านก่อนแปลงประเภทข้อมูล

# Check the maximum numeric value.
print(f"Output \n *** maximum value for Numeric data type - {movies.select_dtypes(exclude=['object']).unstack().max()}")

# what is the max vote count value
print(f" *** Vote count maximum value - {movies[['vote_count']].unstack().max()}")

# what is the max movie runtime value
print(f" *** Movie Id maximum value - {movies[['runtime']].unstack().max()}")

ผลลัพธ์

*** maximum value for Numeric data type - 2787965087.0
*** Vote count maximum value - 13752
*** Movie Id maximum value - 338.0

3. มีคอลัมน์ที่ไม่จำเป็นต้องแสดงเป็น 64 บิตและสามารถลดขนาดลงเหลือ 16 บิตได้ ลองทำกัน ช่วง int 64 บิตอยู่ระหว่าง -32768 ถึง +32767 ฉันจะทำเพื่อ vote_count และรันไทม์ และคุณสามารถทำได้สำหรับคอลัมน์ที่ต้องการหน่วยความจำน้อยกว่า

4. ตอนนี้ เพื่อระบุภาพยนตร์ที่ได้รับความนิยมมากที่สุดในแต่ละปี เราต้องจัดกลุ่มตาม release_date และรับค่าความนิยมสูงสุด SQL ทั่วไปจะมีลักษณะดังนี้

SELECT movie with max popularity FROM movies GROUP BY movie released year

5. น่าเสียดายที่ release_date ของเราเป็นประเภทข้อมูลออบเจ็กต์ มีสองวิธีในการแปลงให้เป็น datetime ฉันจะเลือกสร้างคอลัมน์ใหม่โดยระบุปีเพื่อให้สามารถใช้คอลัมน์นั้นในการจัดกลุ่มได้

movies['year'] = pd.to_datetime(movies['release_date']).dt.year.astype('Int64')
print(f"Output \n ***{movies.sample(n=5)}")

ผลลัพธ์

*** budget id original_language original_title popularity \
757 0 87825 en Trouble with the Curve 18.587114
711 58000000 39514 en RED 41.430245
1945 13500000 152742 en La migliore offerta 30.058263
2763 13000000 16406 en Dick 4.742537
4595 350000 764 en The Evil Dead 35.037625

release_date revenue runtime status title \
757 21/09/2012 0 111.0 Released Trouble with the Curve
711 13/10/2010 71664962 111.0 Released RED
1945 1/01/2013 19255873 124.0 Released The Best Offer
2763 4/08/1999 27500000 94.0 Released Dick
4595 15/10/1981 29400000 85.0 Released The Evil Dead

vote_average vote_count year
757 6.6 366 2012
711 6.6 2808 2010
1945 7.7 704 2013
2763 5.7 67 1999
4595 7.3 894 1981

วิธีที่ 1 - ไม่ใช้ Group By

6. ต้องการเพียง 3 คอลัมน์ ชื่อหนัง ปีที่เข้าฉาย และความนิยม ดังนั้นเราจึงเลือกคอลัมน์เหล่านั้นและใช้ sort_values ในปีเพื่อดูว่าผลลัพธ์เป็นอย่างไร

print(f"Output \n *** Method 1- Without Using Group By")
movies[["title", "year", "popularity"]].sort_values("year", ascending=True)

ผลลัพธ์

*** Without Using Group By

	หัวเรื่อง	ปี	ความนิยม
4592	ไม่อดทน	1916	3.232447
4661	ขบวนแห่ใหญ่	2568	0.785744
2638	มหานคร	1927	32.351527
4594	เดอะบรอดเวย์เมโลดี้	1929	0.968865
4457	กล่องแพนดอร่า	1929	1.824184
...	...	...	...
2109	ฉันก่อนเธอ	2016	53.161905
3081	ป่า	2016	19.865989
2288	Fight Valley	2016	1.224105
4255	โตแล้ว สมิธ	2017	0.710870
4553	อเมริกายังคงเป็นสถานที่		0.000000

4803 แถว × 3 คอลัมน์

8. เมื่อดูผลลัพธ์แล้ว เราต้องเรียงลำดับความนิยมด้วยเพื่อให้ได้หนังที่ดังที่สุดในรอบปี ส่งคอลัมน์ที่สนใจเป็นรายการ ascending=False จะส่งผลการเรียงลำดับจากมากไปหาน้อย

movies[["title", "year", "popularity"]].sort_values(["year","popularity"], ascending=False)

	หัวเรื่อง	ปี	ความนิยม
4255	โตแล้ว สมิธ	2017	0.710870
788	เดดพูล	2016	514.569956
26	กัปตันอเมริกา:สงครามกลางเมือง	2016	198.372395
10	Batman v Superman:รุ่งอรุณแห่งความยุติธรรม	2016	155.790452
64	X-Men:Apocalypse	2016	139.272042
...	...	...	...
4593	เดอะบรอดเวย์เมโลดี้	1929	0.968865
2638	มหานคร	1927	32.351527
4660	ขบวนแห่ใหญ่	2568	0.785744
4591	ไม่อดทน	1916	3.232447
4552	อเมริกายังคงเป็นสถานที่		0.000000

4802 แถว × 3 คอลัมน์

9. เอาล่ะ ข้อมูลถูกจัดเรียงอย่างสมบูรณ์แล้ว ดังนั้นขั้นตอนต่อไปคือการรักษาค่าแรกในแต่ละปีและนำส่วนที่เหลือออก ให้ทายว่าทำอย่างไร ?.

เราจะใช้วิธี .drop_duplicates

movies[["title", "year", "popularity"]].sort_values(["year","popularity"], ascending=False).drop_duplicates(subset="year")

	หัวเรื่อง	ปี	ความนิยม
4255	โตแล้ว สมิธ	2017	0.710870
788	เดดพูล	2016	514.569956
546	มินเนี่ยน	2015	875.581305
95	ดวงดาว	2014	724.247784
124	แช่แข็ง	2013	165.125366
...	...	...	...
4456	กล่องแพนดอร่า	1929	1.824184
2638	มหานคร	1927	32.351527
4660	ขบวนแห่ใหญ่	2568	0.785744
4591	ไม่อดทน	1916	3.232447
4552	อเมริกายังคงเป็นสถานที่		0.000000

91 แถว × 3 คอลัมน์

วิธีที่ 2 - การใช้ Group By

เราสามารถทำได้เช่นเดียวกันกับ groupby เช่นกัน วิธีการนี้คล้ายกับ SQL ที่แสดงด้านบนมาก

print(f"Output \n *** Method 2 - Using Group By")
movies[["title", "year", "popularity"]].groupby("year", as_index=False).apply(lambda df:df.sort_values("popularity", ascending=False)
.head(1)).droplevel(0).sort_values("year", ascending=False)

ผลลัพธ์

*** Method 2 - Using Group By

	หัวเรื่อง	ปี	ความนิยม
4255	โตแล้ว สมิธ	2017	0.710870
788	เดดพูล	2016	514.569956
546	มินเนี่ยน	2015	875.581305
95	ดวงดาว	2014	724.247784
124	แช่แข็ง	2013	165.125366
...	...	...	...
3804	นางฟ้าแห่งนรก	1930	8.484123
4457	กล่องแพนดอร่า	1929	1.824184
2638	มหานคร	1927	32.351527
4661	ขบวนแห่ใหญ่	2568	0.785744
4592	ไม่อดทน	1916	3.232447

90 แถว × 3 คอลัมน์