好湿?好紧?好多水好爽自慰,久久久噜久噜久久综合,成人做爰A片免费看黄冈,机机对机机30分钟无遮挡

主頁 > 知識庫 > 使用pandas模塊實現(xiàn)數(shù)據(jù)的標準化操作

使用pandas模塊實現(xiàn)數(shù)據(jù)的標準化操作

熱門標簽:哈爾濱ai外呼系統(tǒng)定制 陜西金融外呼系統(tǒng) 公司電話機器人 激戰(zhàn)2地圖標注 騰訊外呼線路 海南400電話如何申請 白銀外呼系統(tǒng) 唐山智能外呼系統(tǒng)一般多少錢 廣告地圖標注app

如下所示:

3σ 原則 (u-3*σ ,u+3*σ )
離差標準化 (x-min)/(max-min)
標準差標準化 (x-u)/σ
小數(shù)定標標準化

x/10**k

k=np.ceil(log10(max(|x|)))

1.3σ原則

u 均值

σ 標準差

正太分布的數(shù)據(jù)基本都分布在(u-3σ,u+3σ)范圍內(nèi)

其他的數(shù)據(jù)

import pandas as pd
import numpy as np
def three_sigma(se):
    """
    自實現(xiàn)3σ原則,進行數(shù)據(jù)過濾
    :param se:傳進來的series結(jié)構(gòu)數(shù)據(jù)
    :return:去除異常值之后的series數(shù)據(jù)
    """
    bool_id=((se.mean()-3*se.std())se)  (se(se.mean()+3*se.std()))
    print(bool_id)
    return se[bool_id]
 
#加載數(shù)據(jù)
detail=pd.read_excel('./meal_order_detail.xlsx')
#進行異常值處理
res=three_sigma(detail['amounts'])
print(detail.shape)
print(res.shape)

2.離差標準化

(x-min)/(max-min)
import pandas as pd
import numpy as np
 
def minmax_sca(data):
    """
    離差標準化
    param data:傳入的數(shù)據(jù)
    return:標準化之后的數(shù)據(jù)
    """
    new_data=(data-data.min())/(data.max()-data.min())
    return new_data
 
#加載數(shù)據(jù)
detail=pd.read_excel('./meal_order_detail.xlsx')
res=minmax_sca(detail[['amounts','counts']])
print(res)
data=res
bool_id=data.loc[:,'count']==1
print(data.loc[bool_id],'counts')

3.標準差標準化

(x-u)/σ

異常值對標準差標準化的影響不大

轉(zhuǎn)化之后的數(shù)據(jù)--->均值0 標準差1

import pandas as pd
import numpy as np
def stand_sca(data):
    """
    標準差標準化
    :param data:傳入的數(shù)據(jù)
    :return:標準化之后的數(shù)據(jù)
    """
    new_data=(data-data.mean())/data.std()
    return new_data
 
#加載數(shù)據(jù)
detail=pd.read_excel('./meal_order_detail.xlsx')
res=stand_sca(detail[['amounts','counts']])
print(res)
print('res的均值:',res.mean())
print('res的標準差:',res.std())

4.小數(shù)定標標準化

x/(10^k)
k=math.ceil(log10(max(|x|)))

以10為底,x的絕對值的最大值的對數(shù) 最后進行向上取整

import pandas as pd
import numpy as np
def deci_sca(data):
    """
    自實現(xiàn)小數(shù)定標標準化
    :param data: 傳入的數(shù)據(jù)
    :return: 標準化之后的數(shù)據(jù)
    """
    new_data=data/(10**(np.ceil(np.log10(data.abs().max()))))
    return new_data
#加載數(shù)據(jù)
detail = pd.read_excel('./meal_order_detail.xlsx')
res = deci_sca(detail[['amounts', 'counts']])
print(res)

補充:pandas數(shù)據(jù)處理基礎(chǔ)之標準化與標簽數(shù)值化

fit(): Method calculates the parameters μ and σ and saves them as internal objects.

解釋:簡單來說,就是求得訓練集X的均值,方差,最大值,最小值,這些訓練集X固有的屬性。

transform(): Method using these calculated parameters apply the transformation to a particular dataset.

解釋:在fit的基礎(chǔ)上,進行標準化,降維,歸一化等操作(看具體用的是哪個工具,如PCA,StandardScaler等)。

fit_transform(): joins the fit() and transform() method for transformation of dataset.

解釋:fit_transform是fit和transform的組合,既包括了訓練又包含了轉(zhuǎn)換。 transform()和fit_transform()二者的功能都是對數(shù)據(jù)進行某種統(tǒng)一處理(比如標準化~N(0,1),將數(shù)據(jù)縮放(映射)到某個固定區(qū)間,歸一化,正則化等)

fit_transform(trainData)對部分數(shù)據(jù)先擬合fit,找到該part的整體指標,如均值、方差、最大值最小值等等(根據(jù)具體轉(zhuǎn)換的目的),然后對該trainData進行轉(zhuǎn)換transform,從而實現(xiàn)數(shù)據(jù)的標準化、歸一化等等。

Note:

必須先用fit_transform(trainData),之后再transform(testData)

如果直接transform(testData),程序會報錯

如果fit_transfrom(trainData)后,使用fit_transform(testData)而不transform(testData),雖然也能歸一化,但是兩個結(jié)果不是在同一個“標準”下的,具有明顯差異。(一定要避免這種情況)

注意:StandardScaler().fit_transform(x,fit_params),fit_params決定標準化的標簽數(shù)據(jù),就是每個標準化的標桿數(shù)據(jù),此參數(shù)不同,則每次標準化的過程則不同。

from sklearn import preprocessing
# 獲取數(shù)據(jù)
cols = ['OverallQual','GrLivArea', 'GarageCars','TotalBsmtSF', 'FullBath', 'TotRmsAbvGrd', 'YearBuilt'] ##選取列
x = data_train[cols].values
y = data_train['SalePrice'].values  
x_scaled = preprocessing.StandardScaler().fit_transform(x) ##進行歸一化
y_scaled = preprocessing.StandardScaler().fit_transform(y.reshape(-1,1))##先將y轉(zhuǎn)換成一列,再進行歸一
 

還有以下形式,和上面的標準化原理一致,都是先fit,再transform。

由ss決定標準化進程的獨特性

# 先將數(shù)據(jù)標準化
from sklearn.preprocessing import StandardScaler
ss = StandardScaler() ##
#用測試集訓練并標準化
ss.fit(missing_age_X_train)##首先fit
missing_age_X_train = ss.transform(missing_age_X_train) #進行transform
missing_age_X_test = ss.transform(missing_age_X_test)

標簽數(shù)值化

1.當某列數(shù)據(jù)不是數(shù)值型數(shù)據(jù)時,將難以標準化,此時要將數(shù)據(jù)轉(zhuǎn)化成數(shù)據(jù)型形式。

數(shù)據(jù)處理前數(shù)據(jù)顯示:

經(jīng)過標簽化數(shù)據(jù)處理

from sklearn import preprocessing
f_names = ['CentralAir', 'Neighborhood'] ##需要處理的數(shù)據(jù)標簽 
for x in f_names:
    label = preprocessing.LabelEncoder()
    data_train[x] = label.fit_transform(data_train[x]) ##數(shù)據(jù)標準化

處理之后變成:

2.當某列有對應(yīng)的標簽值時,即某個量對應(yīng)相應(yīng)確定的標簽時,例如oldtown就對應(yīng)1,sawyer就對應(yīng)2,分類的str轉(zhuǎn)換為序列類這時使用如下:

數(shù)據(jù)處理之前

利用轉(zhuǎn)換:

title_mapping = {"Mr": 1, "Miss": 2, "Mrs": 3, "Master": 4, "Rare": 5}#將標簽對應(yīng)數(shù)值
train_df['Title'] = train_df['Title'].map(title_mapping)#處理數(shù)據(jù)
train_df['Title'] = train_df['Title'].fillna(0)##將其余標簽填充為0值

處理過后:

3.多個數(shù)據(jù)標簽需要分列采用one_hot形式時,處理之前

處理之后

train_test.loc[train_test["Age"].isnull() ,"age_nan"] = 1 ##將標簽轉(zhuǎn)換成1
train_test.loc[train_test["Age"].notnull() ,"age_nan"] = 0##將此標簽成為0
train_test = pd.get_dummies(train_test,columns=['age_nan']) ##columns決定哪幾行分列處理,prefix參數(shù)是每列前綴

one_hot 形式轉(zhuǎn)變成功。

以上為個人經(jīng)驗,希望能給大家一個參考,也希望大家多多支持腳本之家。

您可能感興趣的文章:
  • pandas 對每一列數(shù)據(jù)進行標準化的方法
  • pandas數(shù)據(jù)處理之 標簽列字符轉(zhuǎn)數(shù)字的實現(xiàn)
  • pandas數(shù)據(jù)處理進階詳解
  • Pandas 數(shù)據(jù)處理,數(shù)據(jù)清洗詳解

標簽:惠州 鷹潭 上海 常德 黑龍江 四川 益陽 黔西

巨人網(wǎng)絡(luò)通訊聲明:本文標題《使用pandas模塊實現(xiàn)數(shù)據(jù)的標準化操作》,本文關(guān)鍵詞  使用,pandas,模塊,實現(xiàn),數(shù)據(jù),;如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問題,煩請?zhí)峁┫嚓P(guān)信息告之我們,我們將及時溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò),涉及言論、版權(quán)與本站無關(guān)。
  • 相關(guān)文章
  • 下面列出與本文章《使用pandas模塊實現(xiàn)數(shù)據(jù)的標準化操作》相關(guān)的同類信息!
  • 本頁收集關(guān)于使用pandas模塊實現(xiàn)數(shù)據(jù)的標準化操作的相關(guān)信息資訊供網(wǎng)民參考!
  • 推薦文章
    主站蜘蛛池模板: 护士12p| 久久久久精品国产亚洲AV影院| tianfangeab国产精品| 深夜精品影院18以下勿进| 污片视频在线观看| 巜痴汉电车强制肉欲2无码| 凄辱护工日本电影完整版观看| 国产亚洲精品自在久久77| 总攻肉文| 欧美交换做爰理伦片| 婷婷国产成人精品视频小说| gogo大胆大尺度人体| 上课手指伸入h| 女人张开腿让男人桶个爽免费观看| 伊人网2021| 免费观看理伦片在线播放视频软件 | 国产欧美性综合视频性刺激| 人人妻人人澡人人爽人人sex| 性欧美XXXXX精品HD| 精品视频一区在线观看| 好爽?要高潮了?视频| 日产精品久久久久久久性色777| 国产一级特黄高清免费下载 | 高h全肉np放荡日记| 伊人久久大香线蕉综合网站| 5g影视天天5g天天爽高清中字软件| 风油精滴逼| 好紧好大爽好多水| 性盈盈盈影院| 久久久久久精品国产观看灭火宝贝 | 欧美男男freegayvideosroom| 欧美一级纶理片免费| 国产一级婬片A片AAAA片下| A片爽爽爽爽爽爽爽爽爽| 抱起来做| 久久久免费| 边摸边亲奶边做爽视频免费看| 漂亮人妻被强完成BD性犯罪| 美女的屁股免费网站| 日本女人的地位| 国产在线拍揄自揄视频不卡99|