好湿?好紧?好多水好爽自慰,久久久噜久噜久久综合,成人做爰A片免费看黄冈,机机对机机30分钟无遮挡

主頁 > 知識庫 > pandas group分組與agg聚合的實例

pandas group分組與agg聚合的實例

熱門標簽:工廠智能電話機器人 400電話申請服務商選什么 在哪里辦理400電話號碼 清遠360地圖標注方法 原裝電話機器人 西藏智能外呼系統五星服務 平頂山外呼系統免費 江蘇客服外呼系統廠家 千陽自動外呼系統

如下:

import pandas as pd
 
df = pd.DataFrame({'Country':['China','China', 'India', 'India', 'America', 'Japan', 'China', 'India'], 
     'Income':[10000, 10000, 5000, 5002, 40000, 50000, 8000, 5000],
     'Age':[5000, 4321, 1234, 4010, 250, 250, 4500, 4321]})

構造的數據如下:

 Age Country Income
0 5000 China 10000
1 4321 China 10000
2 1234 India 5000
3 4010 India 5002
4 250 America 40000
5 250 Japan 50000
6 4500 China 8000
7 4321 India 5000

分組

單列分組

df_gb = df.groupby('Country')
for index, data in df_gb:
 print(index)
 print(data)

輸出

America
 Age Country Income
4 250 America 40000
China
 Age Country Income
0 5000 China 10000
1 4321 China 10000
6 4500 China 8000
India
 Age Country Income
2 1234 India 5000
3 4010 India 5002
7 4321 India 5000
Japan
 Age Country Income
5 250 Japan 50000

多列分組

df_gb = df.groupby(['Country', 'Income'])
for (index1, index2), data in df_gb:
 print((index1, index2))
 print(data)

輸出

('America', 40000)
 Age Country Income
4 250 America 40000
('China', 8000)
 Age Country Income
6 4500 China 8000
('China', 10000)
 Age Country Income
0 5000 China 10000
1 4321 China 10000
('India', 5000)
 Age Country Income
2 1234 India 5000
7 4321 India 5000
('India', 5002)
 Age Country Income
3 4010 India 5002
('Japan', 50000)
 Age Country Income
5 250 Japan 50000

聚合

對分組后數據進行聚合

默認情況對分組之后其他列進行聚合

df_agg = df.groupby('Country').agg(['min', 'mean', 'max'])
print(df_agg)

輸出

 Age     Income      
   min   mean max min   mean max
Country              
America 250 250.000000 250 40000 40000.000000 40000
China 4321 4607.000000 5000 8000 9333.333333 10000
India 1234 3188.333333 4321 5000 5000.666667 5002
Japan  250 250.000000 250 50000 50000.000000 50000

對分組后的部分列進行聚合

某些情況,只需要對部分數據進行不同的聚合操作,可以通過字典來構建

num_agg = {'Age':['min', 'mean', 'max']}
print(df.groupby('Country').agg(num_agg))

輸出

 Age     
   min   mean max
Country       
America 250 250.000000 250
China 4321 4607.000000 5000
India 1234 3188.333333 4321
Japan  250 250.000000 250
num_agg = {'Age':['min', 'mean', 'max'], 'Income':['min', 'max']}
print(df.groupby('Country').agg(num_agg))

輸出

  Age     Income  
   min   mean max min max
Country          
America 250 250.000000 250 40000 40000
China 4321 4607.000000 5000 8000 10000
India 1234 3188.333333 4321 5000 5002
Japan  250 250.000000 250 50000 50000

補充:pandas——很全的groupby、agg,對表格數據分組與統計

我這篇groupby寫的不好。太復雜了。其實實際上經常用的就那么幾個。舉個例子,把常用的往那一放就很容易理解和拿來用了。日后再寫一篇。

groupby功能:分組

groupby + agg(聚集函數們): 分組后,對各組應用一些函數,如'sum',‘mean',‘max',‘min'…

groupby默認縱方向上分組,axis=0

DataFrame
import pandas as pd
import numpy as np
 df = pd.DataFrame({'key1':['a', 'a', 'b', 'b', 'a'],
     'key2':['one', 'two', 'one', 'two', 'one'],
     'data1':np.random.randn(5),
     'data2':np.random.randn(5)})
print(df)
  data1  data2 key1 key2
0 -0.410122 0.247895 a one
1 -0.627470 -0.989268 a two
2 0.179488 -0.054570 b one
3 -0.299878 -1.640494 b two
4 -0.297191 0.954447 a one

分組,并對分組進行迭代

list(df.groupby(['key1']))#list后得到:[(group1),(group2),......]
[('a',  data1  data2 key1 key2
 0 -0.410122 0.247895 a one
 1 -0.627470 -0.989268 a two
 4 -0.297191 0.954447 a one), ('b',  data1  data2 key1 key2
 2 0.179488 -0.054570 b one
 3 -0.299878 -1.640494 b two)]

list后得到:[(group1),(group2),…]

每個數據片(group)格式: (name,group)元組

1. 按key1(一個列)分組,其實是按key1的值

groupby對象支持迭代,產生一組二元元組:(分組名,數據塊),(分組名,數據塊)…

for name,group in df.groupby(['key1']):
 print(name)
 print(group)
a
  data1  data2 key1 key2
0 -0.410122 0.247895 a one
1 -0.627470 -0.989268 a two
4 -0.297191 0.954447 a one
b
  data1  data2 key1 key2
2 0.179488 -0.054570 b one
3 -0.299878 -1.640494 b two

2. 按[key1, key2](多個列)分組

對于多重鍵,產生的一組二元元組:((k1,k2),數據塊),((k1,k2),數據塊)…

第一個元素是由鍵值組成的元組

for name,group in df.groupby(['key1','key2']):
 print(name) #name=(k1,k2)
 print(group)
('a', 'one')
  data1  data2 key1 key2
0 -0.410122 0.247895 a one
4 -0.297191 0.954447 a one
('a', 'two')
  data1  data2 key1 key2
1 -0.62747 -0.989268 a two
('b', 'one')
  data1 data2 key1 key2
2 0.179488 -0.05457 b one
('b', 'two')
  data1  data2 key1 key2
3 -0.299878 -1.640494 b two

3. 按函數分組

4. 按字典分組

5. 按索引級別分組

6.將函數跟數組、列表、字典、Series混合使用也不是問題,因為任何東西最終都會被轉換為數組

將這些數據片段做成字典

dict(list(df.groupby(['key1'])))#dict(list())
{'a':  data1  data2 key1 key2
 0 -0.410122 0.247895 a one
 1 -0.627470 -0.989268 a two
 4 -0.297191 0.954447 a one, 'b':  data1  data2 key1 key2
 2 0.179488 -0.054570 b one
 3 -0.299878 -1.640494 b two}

分組后進行一些統計、計算等

1. 分組后,返回一個含有分組大小的Series

按key1分組

df.groupby(['key1']).size()
key1
a 3
b 2
dtype: int64
dict(['a1','x2','e3'])



{'a': '1', 'e': '3', 'x': '2'}

按[key1,key2]分組

df.groupby(['key1','key2']).size()
key1 key2
a  one  2
  two  1
b  one  1
  two  1
dtype: int64

2. 對data1按key1進行分組,并計算data1列的平均值

df['data1'].groupby(df['key1']).mean()
#groupby沒有進行任何的計算。它只是進行了一個分組
key1
a -0.444928
b -0.060195
Name: data1, dtype: float64
df.groupby(['key1'])['data1'].mean()#理解:對df按key1分組,并計算分組后df['data1']的均值
#等價于:df.groupby(['key1']).data1.mean()
key1
a -0.444928
b -0.060195
Name: data1, dtype: float64

說明:

groupby沒有進行任何的計算。它只是進行了一個分組。

數據(Series)根據分組鍵進行了聚合,產生了一個新的Series,其索引為key1列中的唯一值。

這種索引操作所返回的對象是一個已分組的DataFrame(如果傳入的是列表或數組)或已分組的Series

df.groupby(['key1'])['data1'].size()
key1
a 3
b 2
Name: data1, dtype: int64

3.對data1按[key1,key2]進行分組,并計算data1的平均值

df['data1'].groupby([df['key1'],df['key2']]).mean()
key1 key2
a  one -0.353657
  two -0.627470
b  one  0.179488
  two -0.299878
Name: data1, dtype: float64
df.groupby(['key1','key2'])['data1'].mean()
#等價于:df.groupby(['key1','key2']).data1'.mean()
key1 key2
a  one -0.353657
  two -0.627470
b  one  0.179488
  two -0.299878
Name: data1, dtype: float64

通過兩個鍵對數據進行了分組,得到的Series具有一個層次化索引(由唯一的鍵對組成):

df.groupby(['key1','key2'])['data1'].mean().unstack()
key2 one two
key1
a -0.353657 -0.627470
b 0.179488 -0.299878

在上面這些示例中,分組鍵均為Series。實際上,分組鍵可以是任何長度適當的數組。非常靈活。

橫方向上

按列的數據類型(df.dtypes)來分

df共兩種數據類型:float64和object,所以會分為兩組(dtype(‘float64'),數據片),(dtype(‘O'), 數據片)

list(df.groupby(df.dtypes, axis=1))
[(dtype('float64'),  data1  data2
 0 -0.410122 0.247895
 1 -0.627470 -0.989268
 2 0.179488 -0.054570
 3 -0.299878 -1.640494
 4 -0.297191 0.954447), (dtype('O'), key1 key2
 0 a one
 1 a two
 2 b one
 3 b two
 4 a one)]

agg的應用

groupby+agg 可以對groupby的結果同時應用多個函數

SeriesGroupBy的方法agg()參數:

aggregate(self, func_or_funcs, * args, ** kwargs)
func: function, string, dictionary, or list of string/functions

返回:aggregated的Series

s= pd.Series([10,20,30,40])
s
0 10
1 20
2 30
3 40
dtype: int64
for n,g in s.groupby([1,1,2,2]):
 print(n)
 print(g)
0 10
1 20
dtype: int64
2
2 30
3 40
dtype: int64
s.groupby([1,1,2,2]).min()
1
1 10
2 30
dtype: int64
#等價于這個:
s.groupby([1,1,2,2]).agg('min')
1 10
2 30
dtype: int64
s.groupby([1,1,2,2]).agg(['min','max'])#加[],func僅接受一個參數
min max
1 10 20
2 30 40

常常這樣用:

df

data1 data2 key1 key2
0 -0.410122 0.247895 a one
1 -0.627470 -0.989268 a two
2 0.179488 -0.054570 b one
3 -0.299878 -1.640494 b two
4 -0.297191 0.954447 a one

比較下面,可以看出agg的用處:

df.groupby(['key1'])['data1'].min()
key1
a -0.627470
b -0.299878
Name: data1, dtype: float64
df.groupby(['key1'])['data1'].agg({'min'})
min
key1
a -0.627470
b -0.299878
#推薦用這個√
df.groupby(['key1']).agg({'data1':'min'})#對data1列,取各組的最小值,名字還是data1
data1
key1
a -0.627470
b -0.299878
#按key1分組后,aggregate各組data1的最小值和最大值:
df.groupby(['key1'])['data1'].agg({'min','max'})
max min
key1
a -0.297191 -0.627470
b 0.179488 -0.299878
#推薦用這個√
df.groupby(['key1']).agg({'data1':['min','max']})
data1
min max
key1
a -0.627470 -0.297191
b -0.299878 0.179488

可以對groupby的結果更正列名(不推薦用這個,哪怕在后面單獨更改列名)

# 對data1,把min更名為a,max更名為b
df.groupby(['key1'])['data1'].agg({'a':'min','b':'max'})#這里的'min' 'max'為兩個函數名
d:\python27\lib\site-packages\ipykernel_launcher.py:2: FutureWarning: using a dict on a Series for aggregation
is deprecated and will be removed in a future version
a b
key1
a -0.627470 -0.297191
b -0.299878 0.179488

重要技巧: groupby之后直接.reset_index()可以得到一個沒有多級索引的DataFrame

之后可以通過df.rename({‘old_col1':‘new_col1',‘old_col2':‘new_col2',…})重命名

eg:

df1= df.groupby(['date'])['price'].agg({'sum','count'}).reset_index()

以上為個人經驗,希望能給大家一個參考,也希望大家多多支持腳本之家。如有錯誤或未考慮完全的地方,望不吝賜教。

您可能感興趣的文章:
  • Pandas中DataFrame的分組/分割/合并的實現
  • pandas 實現分組后取第N行
  • pandas分組排序 如何獲取第二大的數據
  • pandas groupby分組對象的組內排序解決方案
  • pandas組內排序,并在每個分組內按序打上序號的操作
  • pandas 實現某一列分組,其他列合并成list

標簽:隨州 安慶 西安 錦州 白城 股票 日照 天水

巨人網絡通訊聲明:本文標題《pandas group分組與agg聚合的實例》,本文關鍵詞  pandas,group,分組,與,agg,聚合,;如發現本文內容存在版權問題,煩請提供相關信息告之我們,我們將及時溝通與處理。本站內容系統采集于網絡,涉及言論、版權與本站無關。
  • 相關文章
  • 下面列出與本文章《pandas group分組與agg聚合的實例》相關的同類信息!
  • 本頁收集關于pandas group分組與agg聚合的實例的相關信息資訊供網民參考!
  • 推薦文章
    主站蜘蛛池模板: 国产精品秘?第一区在线| free性ZOZC交体内谢HD| 一个人www免费观看视频| www.一级毛片| 麻麻被迫沦为同学的奴| 国产熟女一区二区三区五月婷| 老师好湿| 国产精品入口麻豆午夜| 国产日产精品系列| 总攻cao烂各种大佬高H| 久久久久精品免费A片喷水| 国产成人综合网在线观看 | 啊啊啊啊啊好多水| 91短视频版在线观看免费大全| 久久婷婷五月综合色国产香蕉| 国产美女裸无遮挡裸体免费观软件| 亚洲精品国产第1页| 日本精品久久久久中文字幕8| 99久久综合九九亚洲| 男男小说黄色| 亚洲精品国产AV婷婷在线小说| 午夜男人视频| 国产又爽又黄?免费智库| 日本边添边摸边做边爱喷水在线观看| 老师爽好舒服快深一点小说| 女人爽小雪又嫩又紧| 国产亚洲一区二区三区在线观看| 做a视频在线观看| 总攻主攻np h| 80s国产成年女人毛片| 道具play小说| 麻花传MD0044苏蜜清歌| 久久久无码亚洲精品日韩京东传媒| 情趣旅馆H全肉调教污文| senima亚洲综合| 潜规则h| 又污又黄又爽动态图gif男女| 在厨房撕掉岳的丁字裤小说| 亚洲精品进不去H| 六月婷操| 国产91精品人妻一区二区三|