name | height |
Hang | 180 |
Ben | 145 |
Cho | notknow |
XIn | 189 |
比如read_csv讀入時,該列會以object形式讀入,也不能直接進行計算,不然會出現如unsupported operand type(s) for +: 'float' and 'str'的錯誤
這時候就需要進行數據預處理,清除掉指標值中非數字的數據,這里我以2012_FederalElectionCommission_Database數據為例。
首先讀入數據,可以發現提示:Columns (6) have mixed types,這里Columns (6)是指標值混有字符串格式數據
fec = pd.read_csv('P00000001-ALL.csv') D:\SOFTWARE\Anaconda\lib\site-packages\IPython\core\interactiveshell.py:2717: DtypeWarning: Columns (6) have mixed types. Specify dtype option on import or set low_memory=False. interactivity=interactivity, compiler=compiler, result=result)
#先使用str打開數據 fec = pd.read_csv('P00000001-ALL.csv',dtype={'contbr_zip':str}) #然后使用str函數isdigit()判斷單元格是否全為數字 fec_isnum=fec.iloc[:,6].str.isdigit() #得到使用bool索引把全為數字的表格cleaned cleaned = fec[fec_isnum].copy()
補充:pandas如何去掉、過濾數據集中的某些值或者某些行?
在進行數據分析與清理中,我們可能常常需要在數據集中去掉某些異常值。具體來說,看看下面的例子。
import pandas as pd
pandas是很常用的數據分析,數據處理的包。anaconda已經有這個包了,純凈版python的可以自行pip安裝。
數據集df中,對于屬性appPlatform(最后一列),我們想刪除掉取值為2的那些樣本。
如何做?非常簡單。
import pandas as pd df[(True-df['appPlatform'].isin([2]))]
當然,有時候我們需要去掉不止一個值,這個時候只需要在isin([])的列表中添加。更具體來說,例如,對于appID這個屬性,我們想去掉appID=278和appID=382的樣本。
df[(True-df['appID'].isin([278,382]))]
另外,我們有時候并不只是考慮某一列,還需要考慮另外若干列的情況。例如,我們需要過濾掉appPlatform=2而且appID=278和appID=382的樣本呢?非常簡單。
df[(True-df['appID'].isin([278,382]))(True-df['appPlatform'].isin([2]))]
其實,在這里我們看到,就是由兩部分組成的,第一部分就是appID中等于278和382的,另外一部分就是appPlatform中等于2的。兩者取邏輯關系 與()
上面我們是了解了如何取掉某個具體值,下面,我們要看看如何過濾掉某個范圍的值。
對于數據集df,我們想過濾掉creativeID(第一列)中ID值大于10000的樣本。
df[df['creativeID']=10000]
另外,如果要考慮多列的話,其實和上面一樣,將兩種情況做邏輯與()就可以,不過值得注意的是,每個條件要用括號()括起來。
以上為個人經驗,希望能給大家一個參考,也希望大家多多支持腳本之家。如有錯誤或未考慮完全的地方,望不吝賜教。