好湿?好紧?好多水好爽自慰,久久久噜久噜久久综合,成人做爰A片免费看黄冈,机机对机机30分钟无遮挡

主頁 > 知識庫 > python數據分析必會的Pandas技巧匯總

python數據分析必會的Pandas技巧匯總

熱門標簽:南昌地圖標注 旅游廁所地圖標注怎么弄 無錫智能外呼系統好用嗎 百應電話機器人總部 宿州電話機器人哪家好 成都呼叫中心外呼系統哪家強 電梯新時達系統外呼顯示e 地圖標注與注銷 西青語音電銷機器人哪家好

一、Pandas兩大數據結構的創建

序號 方法 說明
1 pd.Series(對象,index=[ ]) 創建Series。對象可以是列表\ndarray、字典以及DataFrame中的某一行或某一列
2 pd.DataFrame(data,columns = [ ],index = [ ]) 創建DataFrame。columns和index為指定的列、行索引,并按照順序排列

舉例:用pandas創建數據表:

df = pd.DataFrame({"id":[1001,1002,1003,1004,1005,1006], 
 "date":pd.date_range('20130102', periods=6),
  "city":['Beijing ', 'SH', ' guangzhou ', 'Shenzhen', 'shanghai', 'BEIJING '],
 "age":[23,44,54,32,34,32],
 "category":['100-A','100-B','110-A','110-C','210-A','130-F'],
  "price":[1200,np.nan,2133,5433,np.nan,4432]},
  columns =['id','date','city','category','age','price'])

二、DataFrame常見方法

序號 方法 說明
1 df.head() 查詢數據的前五行
2 df.tail() 查詢數據的末尾5行
3 pandas.qcut() 基于秩或基于樣本分位數將變量離散化為等大小桶
4 pandas.cut() 基于分位數的離散化函數
5 pandas.date_range() 返回一個時間索引
6 df.apply() 沿相應軸應用函數
7 Series.value_counts() 返回不同數據的計數值
8 df.reset_index() 重新設置index,參數drop = True時會丟棄原來的索引,設置新的從0開始的索引,常與groupby()一起用

舉例:重新索引

df_inner.reset_index()

三、數據索引

序號 方法 說明
1 .values 將DataFrame轉換為ndarray二維數組
2 .append(idx) 連接另一個Index對象,產生新的Index對象
3 .insert(loc,e) 在loc位置增加一個元素
4 .delete(loc) 刪除loc位置處的元素
5 .union(idx) 計算并集
6 .intersection(idx) 計算交集
7 .diff(idx) 計算差集,產生新的Index對象
8 .reindex(index, columns ,fill_value, method, limit, copy ) 改變、重排Series和DataFrame索引,會創建一個新對象,如果某個索引值當前不存在,就引入缺失值。
9 .drop() 刪除Series和DataFrame指定行或列索引。
10 .loc[行標簽,列標簽] 通過標簽查詢指定的數據,第一個值為行標簽,第二值為列標簽。
11 df.iloc[行位置,列位置] 通過默認生成的數字索引查詢指定的數據。

舉例:按索引提取單行的數值

df_inner.loc[3]

四、DataFrame選取和重新組合數據的方法

序號 方法 說明
1 df[val] 從DataFrame選取單列或一組列;在特殊情況下比較便利:布爾型數組(過濾行)、切片(行切片)、或布爾型DataFrame(根據條件設置值)
2 df.loc[val] 通過標簽,選取DataFrame的單個行或一組行
3 df.loc[:,val] 通過標簽,選取單列或列子集
4 df.1oc[val1,val2] 通過標簽,同時選取行和列
5 df.iloc[where] 通過整數位置,從DataFrame選取單個行或行子集
6 df.iloc[:,where] 通過整數位置,從DataFrame選取單個列或列子集
7 df.iloc[where_i,where_j] 通過整數位置,同時選取行和列
8 df.at[1abel_i,1abel_j] 通過行和列標簽,選取單一的標量
9 df.iat[i,j] 通過行和列的位置(整數),選取單一的標量
10 reindex 通過標簽選取行或列
11 get_value 通過行和列標簽選取單一值
12 set_value 通過行和列標簽選取單一值

舉例:使用iloc按位置區域提取數據

df_inner.iloc[:3,:2]

#冒號前后的數字不再是索引的標簽名稱,而是數據所在的位置,從0開始,前三行,前兩列。

五、排序

序號 函數 說明
1 .sort_index(axis=0, ascending=True) 根據指定軸索引的值進行排序
2 Series.sort_values(axis=0, ascending=True) 只能根據0軸的值排序。
3 DataFrame.sort_values(by, axis=0, ascending=True) 參數by為axis軸上的某個索引或索引列表。

舉例:按照索引列排序

df_inner.sort_index()

六、相關分析和統計分析

序號 方法 說明
1 .idxmin() 計算數據最小值所在位置的索引(自定義索引)
2 .idxmax() 計算數據最大值所在位置的索引(自定義索引)
3 .argmin() 計算數據最小值所在位置的索引位置(自動索引)
4 .argmax() 計算數據最大值所在位置的索引位置(自動索引)
5 .describe() 針對各列的多個統計匯總,用統計學指標快速描述數據的概要
6 .sum() 計算各列數據的和
7 .count() 非NaN值的數量
8 .mean( ) 計算數據的算術平均值
9 .median() 計算算術中位數
10 .var() 計算數據的方差
11 .std() 計算數據的標準差
12 .corr() 計算相關系數矩陣
13 .cov() 計算協方差矩陣
14 .corrwith() 利用DataFrame的corrwith方法,可以計算其列或行跟另一個Series或DataFrame之間的相關系數。
15 .min() 計算數據的最小值
16 .max() 計算數據的最大值
17 .diff() 計算一階差分,對時間序列很有效
18 .mode() 計算眾數,返回頻數最高的那(幾)個
19 .mean() 計算均值
20 .quantile() 計算分位數(0到1)
21 .isin() 用于判斷矢量化集合的成員資格,可用于過濾Series中或DataFrame列中數據的子集
22 .unique() 返回一個Series中的唯一值組成的數組。
23 .value_counts() 計算一個Series中各值出現的頻率。

舉例:判斷city列的值是否為北京

df_inner['city'].isin(['beijing']) 

七、分組的方法

序號 方法 說明
1 DataFrame.groupby() 分組函數
2 pandas.cut() 根據數據分析對象的特征,按照一定的數值指標,把數據分析對象劃分為不同的區間部分來進行研究,以揭示其內在的聯系和規律性。

舉例:.groupby用法

group_by_name=salaries.groupby('name')
print(type(group_by_name))

輸出結果為:

class 'pandas.core.groupby.DataFrameGroupBy'

八、讀寫文本格式數據的方法

序號 方法 說明
1 read_csv 從文件、URL、文件型對象中加載帶分隔符的數據。默認分隔符為逗號
2 read_table 從文件、URL、文件型對象中加載帶分隔符的數據。默認分隔符為制表符(t)
3 read_ fwf 讀取定寬列格式數據(也就是說,沒有分隔符)
4 read_clipboard 讀取剪貼板中的數據,可以看做read_table的剪貼板版。再將網頁轉換為表格時很有用
5 read_excel 從ExcelXLS或XLSXfile 讀取表格數據
6 read_hdf 讀取pandas寫的HDF5文件
7 read_html 讀取HTML文檔中的所有表格
8 read_json 讀取JSON字符串中的數據
9 read_msgpack 二進制格式編碼的pandas數據
10 read_pickle 讀取Python pickle格式中存儲的任意對象
11 read_sas 讀取存儲于SAS系統自定義存儲格式的SAS數據集
12 read_sql 讀取SQL 查詢結果為pandas的DataFrame
13 read_stata 讀取Stata文件格式的數據集
14 read_feather 讀取 Feather二進制文件格式

舉例:導入CSV或者xlsx文件

df = pd.DataFrame(pd.read_csv('name.csv',header=1))
df = pd.DataFrame(pd.read_excel('name.xlsx'))

九、處理缺失數據

序號 方法 說明
1 .fillna(value,method,limit,inplace) 填充缺失值
2 .dropna() 刪除缺失數據
3 .info() 查看數據的信息,包括每個字段的名稱、非空數量、字段的數據類型
4 .isnull() 返回一個同樣長度的值為布爾型的對象(Series或DataFrame),表示哪些值是缺失的

舉例:查看數據表基本信息(維度、列名稱、數據格式等等)

df.info()

十、數據轉換

序號 方法 說明
1 .replace(old, new) 用新的數據替換老的數據,如果希望一次性替換多個值,old和new可以是列表。默認會返回一個新的對象,傳入inplace=True可以對現有對象進行就地修改。
2 .duplicated() 判斷各行是否是重復行,返回一個布爾型Series。
3 .drop_duplicates() 刪除重復行,返回刪除后的DataFrame對象。

舉例:刪除后出現的重復值:

df['city'].drop_duplicates()

本文總結的是都是一些Pandas常用的方法,至于一些基礎的概念還需要你學到Pandas的時候去理解,例如Series是什么?DataFrame是什么?如果你已經清楚了Pandas的這些基礎東西之后,搭配上文章中的這些方法,那你用Pandas去做數據處理和分析必然會游刃有余。

您可能感興趣的文章:
  • Pandas數據分析的一些常用小技巧
  • python之pandas用法大全
  • Python pandas用法最全整理
  • Python Pandas常用函數方法總結
  • Python遍歷pandas數據方法總結
  • Python pandas常用函數詳解
  • Python使用Pandas庫常見操作詳解
  • pandas提升計算效率的一些方法匯總
  • 11個Python Pandas小技巧讓你的工作更高效(附代碼實例)
  • 詳解pandas獲取Dataframe元素值的幾種方法

標簽:許昌 辛集 渭南 西安 雅安 濰坊 七臺河 贛州

巨人網絡通訊聲明:本文標題《python數據分析必會的Pandas技巧匯總》,本文關鍵詞  python,數據分析,必,會的,;如發現本文內容存在版權問題,煩請提供相關信息告之我們,我們將及時溝通與處理。本站內容系統采集于網絡,涉及言論、版權與本站無關。
  • 相關文章
  • 下面列出與本文章《python數據分析必會的Pandas技巧匯總》相關的同類信息!
  • 本頁收集關于python數據分析必會的Pandas技巧匯總的相關信息資訊供網民參考!
  • 推薦文章
    主站蜘蛛池模板: 欧美日本亚洲美国一级牲片| 美女大胸| 久久夜色精品亚洲AV三区青椒| 聊斋艳影| 爱丫爱丫在线影院电视剧| 久久久夜夜夜| 欧美影院入口| 国产亚洲精品A久久777777| 精品国产乱码久久久A片| 久久国产精品免费一区二区三区| 国产熟人AV一二三区| 在线播放一区二区三区| 外国大片又大又好看的PPT| 搡老熟女XXXX搡老女人图片| 一级毛片在线不卡直接观看 | 成人做爰高潮视频www| 天堂网404在线资源| 91av国产在线| 精品猎奇另类久久久久久| 良辰之屋在线| 老师腿开大点我添添公视频| 国产+无码+精品十欧美| 黄色小说在线播放| 来涩涩漫画免费看| 无码人妻久久一区二区三区69| 免费高清特级毛片A片微信群| 91精品国产综合久久福利软件| 女大学生叫床| 老师办公室狂肉校花h| 亚欧乱色一区二区三区| 精品国产乱码久久久久久久软件| 免费播放男人添女人下部| 忘忧草在线免费视频| 24小时日本免费高清视频在线观看| 久草免费新视频| 国产精品美女在线不卡网络| 亚州怡红院| 男女啪啪久久爽A片免费看| ESSUESS影院入口| 我被同桌扯奶罩摸下面作文| 成人性欧美丨区二区三区|