好湿?好紧?好多水好爽自慰,久久久噜久噜久久综合,成人做爰A片免费看黄冈,机机对机机30分钟无遮挡

主頁 > 知識庫 > 分享Pandas庫中的一些寶藏函數transform()

分享Pandas庫中的一些寶藏函數transform()

熱門標簽:高德地圖標注收入咋樣 鶴壁手機自動外呼系統違法嗎 沈陽防封電銷電話卡 萊蕪電信外呼系統 企業微信地圖標注 B52系統電梯外呼顯示E7 怎么辦理400客服電話 銀川電話機器人電話 地圖標注多個

Pandas函數的核心功能是,既計算了統計值,又保留了明細數據。為了更好地理解transform和agg的不同,下面從實際的應用場景出發進行對比。

aggregation會返回數據的縮減版本,而transformation能返回完整數據的某一變換版本供我們重組。這樣的transformation,輸出的形狀和輸入一致。一個常見的例子是通過減去分組平均值來居中數據。

#數據構造
data = pd.DataFrame(
{"company":['百度', '阿里', '百度', '阿里', '百度', '騰訊', '騰訊', '阿里', '騰訊', '阿里'],
"salary":[43000, 24000, 40000, 39000, 8000, 47000, 25000, 16000, 21000, 38000],
"age":[25, 34, 49, 42, 28, 23, 45, 21, 34, 29]}) 
data
  company  salary  age
0      百度   43000   25
1      阿里   24000   34
2      百度   40000   49
3      阿里   39000   42
4      百度    8000   28
5      騰訊   47000   23
6      騰訊   25000   45
7      阿里   16000   21
8      騰訊   21000   34
9      阿里   38000   29

1、transform作用于Series

1)單個變換函數

當transform作用于單列Series時較為簡單 ,對salary列進行transform變換我們可以傳入任意的非聚合類函數,比如對工資列對數化

import pandas as pd 
import numpy  as np
# 對工資對數化
data['salary'].transform(np.log) 
0    10.668955
1    10.085809
2    10.596635
3    10.571317
4     8.987197
5    10.757903
6    10.126631
7     9.680344
8     9.952278
9    10.545341
Name: salary, dtype: float64

除了內置函數,還可以傳入lambda函數

# lambda函數
data['salary'].transform(lambda s: s+1)
0    43001
1    24001
2    40001
3    39001
4     8001
5    47001
6    25001
7    16001
8    21001
9    38001
Name: salary, dtype: int64

2)多個變換函數

也可以傳入包含多個變換函數的列表來一口氣計算出多列結果:

data['salary'].transform([np.log, lambda s: s+1, np.sqrt])
   log  lambda>        sqrt
0  10.668955     43001  207.364414
1  10.085809     24001  154.919334
2  10.596635     40001  200.000000
3  10.571317     39001  197.484177
4   8.987197      8001   89.442719
5  10.757903     47001  216.794834
6  10.126631     25001  158.113883
7   9.680344     16001  126.491106
8   9.952278     21001  144.913767
9  10.545341     38001  194.935887

而又因為transform傳入的函數,在執行運算時接收的輸入參數是對應的整列數據,所以我們可以利用這個特點實現諸如數據標準化、歸一化等需要依賴樣本整體統計特征的變換過程:

# 利用transform進行數據標準化
data['salary'].transform(lambda s: (s - s.mean()) / s.std())
0    0.991038
1   -0.468630
2    0.760564
3    0.683739
4   -1.697825
5    1.298337
6   -0.391806
7   -1.083228
8   -0.699104
9    0.606915
Name: salary, dtype: float64

2、 transform作用于DataFrame

當transform作用于整個DataFrame時,實際上就是將傳入的所有變換函數作用到每一列中:

data.loc[:,'salary':'age'].transform(lambda s:(s-s.mean()) /s.std())
     salary       age
0  0.991038 -0.832050
1 -0.468630  0.104006
2  0.760564  1.664101
3  0.683739  0.936057
4 -1.697825 -0.520031
5  1.298337 -1.040063
6 -0.391806  1.248075
7 -1.083228 -1.248075
8 -0.699104  0.104006
9  0.606915 -0.416025

而當傳入多個變換函數時,對應的返回結果格式類似agg中的機制,會生成MultiIndex格式的字段名

data.loc[:, 'salary': 'age'].transform([np.log, lambda s: s+1])
  salary                age         
         log lambda>       log lambda>
0  10.668955    43001  3.218876       26
1  10.085809    24001  3.526361       35
2  10.596635    40001  3.891820       50
3  10.571317    39001  3.737670       43
4   8.987197     8001  3.332205       29
5  10.757903    47001  3.135494       24
6  10.126631    25001  3.806662       46
7   9.680344    16001  3.044522       22
8   9.952278    21001  3.526361       35
9  10.545341    38001  3.367296       30

而且由于作用的是DataFrame,還可以利用字典以鍵值對的形式,一口氣為每一列配置單個或多個變換函數:

(data.loc[:, 'salary': 'age']
.transform({'age': lambda s: (s - s.mean()) / s.std(),
                'salary': [np.log, np.sqrt]}))
   age     salary            
   lambda>        log        sqrt
0 -0.832050  10.668955  207.364414
1  0.104006  10.085809  154.919334
2  1.664101  10.596635  200.000000
3  0.936057  10.571317  197.484177
4 -0.520031   8.987197   89.442719
5 -1.040063  10.757903  216.794834
6  1.248075  10.126631  158.113883
7 -1.248075   9.680344  126.491106
8  0.104006   9.952278  144.913767
9 -0.416025  10.545341  194.935887

3、transform作用于groupby分組后

在原來的數據中,我們知道了如何求不同公司的平均薪水,假如需要在原數據集中新增一列salary_mean,代表該公司的平均薪水,該怎么實現呢?

data['salary_mean'] = data.groupby('company')[['salary']].transform('mean')
data 
  company  salary  age   salary_mean
0      百度   43000   25  30333.333333
1      阿里   24000   34  29250.000000
2      百度   40000   49  30333.333333
3      阿里   39000   42  29250.000000
4      百度    8000   28  30333.333333
5      騰訊   47000   23  31000.000000
6      騰訊   25000   45  31000.000000
7      阿里   16000   21  29250.000000
8      騰訊   21000   34  31000.000000
9      阿里   38000   29  29250.000000

通過上面的數據可以看出,利用transform輸出既得到了統計數據,形狀也沒有變化。

當然,也可對多個數據列進行計算

data.groupby('company')[['salary', 'age']].transform('mean')
         salary   age
0  30333.333333  34.0
1  29250.000000  31.5
2  30333.333333  34.0
3  29250.000000  31.5
4  30333.333333  34.0
5  31000.000000  34.0
6  31000.000000  34.0
7  29250.000000  31.5
8  31000.000000  34.0
9  29250.000000  31.5

我們也可以用map函數實現類似的功能,但是稍微復雜點,但是有助于我們理解transform的含義。

avg_dict = data.groupby('company')['salary'].mean().to_dict()
avg_dict#得到了一個平均工資的字典
{'百度': 30333.333333333332, '騰訊': 31000.0, '阿里': 29250.0}
#利用map函數,將得到的字典映射到對應的列
data['salary_mean'] = data['company'].map(avg_dict)
data
company  salary  age   salary_mean
0      百度   43000   25  30333.333333
1      阿里   24000   34  29250.000000
2      百度   40000   49  30333.333333
3      阿里   39000   42  29250.000000
4      百度    8000   28  30333.333333
5      騰訊   47000   23  31000.000000
6      騰訊   25000   45  31000.000000
7      阿里   16000   21  29250.000000
8      騰訊   21000   34  31000.000000
9      阿里   38000   29  29250.000000

以圖解的方式來看看進行groupby后transform的實現過程(公司列包含ABC,salary列為每個員工的工資明細):

上圖中的大方框是transform和agg 所不一樣的地方,對agg而言,會計算并聚合得到 A,B,C 公司對應的均值并直接返回,每個公司一條數據,但對transform而言,則會對每一條數據求得相應的結果,同一組內的樣本會有相同的值,組內求完均值后會按照原索引的順序返回結果。

以上就是分享Pandas中的一些寶藏函數transform()的詳細內容,更多關于Pandas函數transform()的資料請關注腳本之家其它相關文章!

您可能感興趣的文章:
  • pandas數據分組groupby()和統計函數agg()的使用
  • pandas之分組groupby()的使用整理與總結
  • Pandas中的 transform()結合 groupby()用法示例詳解

標簽:銀川 安慶 葫蘆島 三亞 呼倫貝爾 烏魯木齊 呼倫貝爾 湘西

巨人網絡通訊聲明:本文標題《分享Pandas庫中的一些寶藏函數transform()》,本文關鍵詞  分享,Pandas,庫,中的,一些,;如發現本文內容存在版權問題,煩請提供相關信息告之我們,我們將及時溝通與處理。本站內容系統采集于網絡,涉及言論、版權與本站無關。
  • 相關文章
  • 下面列出與本文章《分享Pandas庫中的一些寶藏函數transform()》相關的同類信息!
  • 本頁收集關于分享Pandas庫中的一些寶藏函數transform()的相關信息資訊供網民參考!
  • 推薦文章
    主站蜘蛛池模板: 91啪国自产在线高清观看| 给少妇按摩| 农村妇女一级毛片| 777爽死你无码一区二区| 91久久久久久精品国产9游| 乡村教师林越| 呦呦交| 午夜dj免费完整在线观看| 蜜乳AⅤ一区二区在线看| 工囗绅士本子h无遮拦全彩5d| 长日光乱成一团| 粉嫩AV一区二区在线观看视频| 久久久夜色精品亚洲AV西施| 亚洲高清不卡视频| 天堂在线免费| 被两个男人操| 国产一级a爱做片免费☆观看| 一级做a爰片久久毛片无码电影| 荡公欲妇| 免费黄色韩漫| 一区二区三区四区无限乱码在线观看| 久久精视频| 真人做受120分钟免费看| 亚洲 欧美 国产 日韩 激情| 浪进浪出小说| chinese色系videos教师| 恸哭的女教师| 老司机精品福利视频| 欧美同性videos免费播放| 才两根手指头就喊疼怎么回事| 国产精品综合一区| 中文字幕精品无码亚洲字幕一区| 日本一级特黄大片做受不忠| 黄色一几片| 被主人在教室羞耻调教| 太快了浓浊灌满bl文库np| 乱Lun之荡sao校园文H| 我和小?在厨房做爰| 男人插入女人下体视频| 日本乱子伦xxxx| 绿帽王八奴+伺候情人|