好湿?好紧?好多水好爽自慰,久久久噜久噜久久综合,成人做爰A片免费看黄冈,机机对机机30分钟无遮挡

主頁(yè) > 知識(shí)庫(kù) > 利用機(jī)器學(xué)習(xí)預(yù)測(cè)房?jī)r(jià)

利用機(jī)器學(xué)習(xí)預(yù)測(cè)房?jī)r(jià)

熱門標(biāo)簽:京華圖書館地圖標(biāo)注 看懂地圖標(biāo)注方法 淮安呼叫中心外呼系統(tǒng)如何 電話機(jī)器人貸款詐騙 打印谷歌地圖標(biāo)注 電話外呼系統(tǒng)招商代理 廣東旅游地圖標(biāo)注 佛山通用400電話申請(qǐng) 蘇州人工外呼系統(tǒng)軟件

項(xiàng)目介紹

背景:

DC競(jìng)賽比賽項(xiàng)目,運(yùn)用回歸模型進(jìn)行房?jī)r(jià)預(yù)測(cè)。

數(shù)據(jù)介紹:

數(shù)據(jù)主要包括2014年5月至2015年5月美國(guó)King County的房屋銷售價(jià)格以及房屋的基本信息。

其中訓(xùn)練數(shù)據(jù)主要包括10000條記錄,14個(gè)字段,分別代表:

  • 銷售日期(date):2014年5月到2015年5月房屋出售時(shí)的日期;
  • 銷售價(jià)格(price):房屋交易價(jià)格,單位為美元,是目標(biāo)預(yù)測(cè)值;
  • 臥室數(shù)(bedroom_num):房屋中的臥室數(shù)目;
  • 浴室數(shù)(bathroom_num):房屋中的浴室數(shù)目;
  • 房屋面積(house_area):房屋里的生活面積;
  • 停車面積(park_space):停車坪的面積;
  • 樓層數(shù)(floor_num):房屋的樓層數(shù);
  • 房屋評(píng)分(house_score):King County房屋評(píng)分系統(tǒng)對(duì)房屋的總體評(píng)分;
  • 建筑面積(covered_area):除了地下室之外的房屋建筑面積;
  • 地下室面積(basement_area):地下室的面積;
  • 建筑年份(yearbuilt):房屋建成的年份;
  • 修復(fù)年份(yearremodadd):房屋上次修復(fù)的年份;
  • 緯度(lat):房屋所在緯度;
  • 經(jīng)度(long):房屋所在經(jīng)度。

目標(biāo):

算法通過計(jì)算平均預(yù)測(cè)誤差來衡量回歸模型的優(yōu)劣。平均預(yù)測(cè)誤差越小,說明回歸模型越好。

代碼詳解

數(shù)據(jù)導(dǎo)入

先導(dǎo)入分析需要的python包:

#導(dǎo)入類庫(kù)和加載數(shù)據(jù)集
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

導(dǎo)入下載好的kc_train的csv文件:

#讀取數(shù)據(jù)
train_names = ["date",
               "price",
               "bedroom_num",
               "bathroom_num",
               "house_area",
               "park_space",
               "floor_num",
               "house_score",
               "covered_area",
               "basement_area",
               "yearbuilt",
               "yearremodadd",
               "lat",
               "long"]
data = pd.read_csv("kc_train.csv",names=train_names)
data.head()

數(shù)據(jù)預(yù)處理

查看數(shù)據(jù)集概況

# 觀察數(shù)據(jù)集概況
data.info()

從圖中可以看出沒有任何缺失值,因此不需要對(duì)缺失值進(jìn)行處理。

拆分?jǐn)?shù)據(jù)

把原始數(shù)據(jù)中的年月日拆開,然后根據(jù)房屋的建造年份和修復(fù)年份計(jì)算一下售出時(shí)已經(jīng)過了多少年,這樣就有17個(gè)特征。

sell_year,sell_month,sell_day=[],[],[]
house_old,fix_old=[],[]
for [date,yearbuilt,yearremodadd] in data[['date','yearbuilt','yearremodadd']].values:
    year,month,day=date//10000,date%10000//100,date%100
    sell_year.append(year)
    sell_month.append(month)
    sell_day.append(day)
    house_old.append(year-yearbuilt)
    if yearremodadd==0:
        fix_old.append(0)
    else:
        fix_old.append(year-yearremodadd)
del data['date']
data['sell_year']=pd.DataFrame({'sell_year':sell_year})
data['sell_month']=pd.DataFrame({'sell_month':sell_month})
data['sell_day']=pd.DataFrame({'sell_day':sell_day})
data['house_old']=pd.DataFrame({'house_old':house_old})
data['fix_old']=pd.DataFrame({'fix_old':fix_old})
data.head()

觀察因變量(price)數(shù)據(jù)情況

#觀察數(shù)據(jù)
print(data['price'].describe())

#觀察price的數(shù)據(jù)分布
plt.figure(figsize = (10,5))
# plt.xlabel('price')
sns.distplot(data['price'])

從數(shù)據(jù)和圖片上可以看出,price呈現(xiàn)典型的右偏分布,但總體上看還是符合一般規(guī)律。

相關(guān)性分析

自變量與因變量的相關(guān)性分析,繪制相關(guān)性矩陣熱力圖,比較各個(gè)變量之間的相關(guān)性:

#自變量與因變量的相關(guān)性分析
plt.figure(figsize = (20,10))
internal_chars = ['price','bedroom_num','bathroom_num','house_area','park_space','floor_num','house_score','covered_area'
                  ,'basement_area','yearbuilt','yearremodadd','lat','long','sell_year','sell_month','sell_day',
                 'house_old','fix_old']
corrmat = data[internal_chars].corr()  # 計(jì)算相關(guān)系數(shù)
sns.heatmap(corrmat, square=False, linewidths=.5, annot=True) #熱力圖
csdn.net/jlf7026/article/details/84630414

相關(guān)性越大,顏色越淺。看著可能不太清楚,因此看下排名

#打印出相關(guān)性的排名
print(corrmat["price"].sort_values(ascending=False))

可以看出house_area,house_score,covered_area,bathroom_num這四個(gè)特征對(duì)price的影響最大,都超過了0.5。負(fù)數(shù)表明與price是負(fù)相關(guān)的。

特征選擇

一般來說,選擇一些與因變量(price)相關(guān)性比較大的做特征,但我嘗試過選擇前十的特征,然后進(jìn)行建模預(yù)測(cè),但得到的結(jié)果并不是很好,所以我還是把現(xiàn)有的特征全部用上。

歸一化

對(duì)于各個(gè)特征的數(shù)據(jù)范圍不一樣,影響線性回歸的效果,因此歸一化數(shù)據(jù)。

#特征縮放
data = data.astype('float')
x = data.drop('price',axis=1)
y = data['price']
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
newX= scaler.fit_transform(x)
newX = pd.DataFrame(newX, columns=x.columns)
newX.head()

劃分?jǐn)?shù)據(jù)集

#先將數(shù)據(jù)集分成訓(xùn)練集和測(cè)試集
from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test = train_test_split(newX, y, test_size=0.2, random_state=21)

建立模型

選擇兩個(gè)模型進(jìn)行預(yù)測(cè),觀察那個(gè)模型更好。

  • 線性回歸
  • 隨機(jī)森林
#模型建立
from sklearn import metrics
def RF(X_train, X_test, y_train, y_test):    #隨機(jī)森林 
    from sklearn.ensemble import RandomForestRegressor
    model= RandomForestRegressor(n_estimators=200,max_features=None)
    model.fit(X_train, y_train)
    predicted= model.predict(X_test)
    mse = metrics.mean_squared_error(y_test,predicted)
    return (mse/10000)
def LR(X_train, X_test, y_train, y_test):    #線性回歸
    from sklearn.linear_model import LinearRegression            
    LR = LinearRegression()
    LR.fit(X_train, y_train)
    predicted = LR.predict(X_test)
    mse = metrics.mean_squared_error(y_test,predicted)
    return (mse/10000)

評(píng)價(jià)標(biāo)準(zhǔn)

算法通過計(jì)算平均預(yù)測(cè)誤差來衡量回歸模型的優(yōu)劣。平均預(yù)測(cè)誤差越小,說明回歸模型越好。

print('RF mse: ',RF(X_train, X_test, y_train, y_test))
print('LR mse: ',LR(X_train, X_test, y_train, y_test))

可以看出,隨機(jī)森林算法比線性回歸算法要好很多。

總結(jié)

對(duì)機(jī)器學(xué)習(xí)有了初步了解。但對(duì)于數(shù)據(jù)的預(yù)處理,和參數(shù),特征,模型的調(diào)優(yōu)還很欠缺。

希望通過以后的學(xué)習(xí),能不斷提高。也希望看這篇文章的朋友和我一起感受機(jī)器學(xué)習(xí)的魅力,更多相關(guān)機(jī)器學(xué)習(xí)內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持腳本之家!

您可能感興趣的文章:
  • 如何用Python進(jìn)行時(shí)間序列分解和預(yù)測(cè)
  • 利用keras使用神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)銷量操作
  • 詳解用Python進(jìn)行時(shí)間序列預(yù)測(cè)的7種方法
  • Python實(shí)現(xiàn)新型冠狀病毒傳播模型及預(yù)測(cè)代碼實(shí)例
  • Datawhale練習(xí)之二手車價(jià)格預(yù)測(cè)

標(biāo)簽:江蘇 駐馬店 呼和浩特 中山 湖州 股票 畢節(jié) 衡水

巨人網(wǎng)絡(luò)通訊聲明:本文標(biāo)題《利用機(jī)器學(xué)習(xí)預(yù)測(cè)房?jī)r(jià)》,本文關(guān)鍵詞  利用,機(jī)器,學(xué)習(xí),預(yù)測(cè),房?jī)r(jià),;如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問題,煩請(qǐng)?zhí)峁┫嚓P(guān)信息告之我們,我們將及時(shí)溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò),涉及言論、版權(quán)與本站無(wú)關(guān)。
  • 相關(guān)文章
  • 下面列出與本文章《利用機(jī)器學(xué)習(xí)預(yù)測(cè)房?jī)r(jià)》相關(guān)的同類信息!
  • 本頁(yè)收集關(guān)于利用機(jī)器學(xué)習(xí)預(yù)測(cè)房?jī)r(jià)的相關(guān)信息資訊供網(wǎng)民參考!
  • 推薦文章
    主站蜘蛛池模板: 性生交大片免费观看A片动态图 | 国产精品探花免费观看| 午夜理论片成人影院的特点| 欧美.成人.综合在线| 午夜dj在线观看免费影院电影下载| 伦理电影在线观看午夜伦理电影网| 《梦犯》无删减版| 亮出你的舌苔空空荡荡小说| 美女撒尿私密秘?视频| 啊啊啊不要停| 懂色一区二区三区在线播放| 夜晚福利网站| 免费精产国品一二三产| 色情A片成人第一是好事还是恶性| 韩国性电影在线观看| 韩国女主播av| 91久久精品美女高潮喷水动漫| 欧美AV大毛毛片免费看| 野草99人人视频久爽人| 中文国产成人精品久久一区| 国产?浪潮AV性色Av按摩| 在线看片免费人成视频久网下载,| 91精品久久人妻一区二区夜夜夜 | 韩国黄色电影| 热逼网站| 欧美做爰XXXⅩ高潮69苍井空| 国产jk制服白丝| 国产精品网址在线观看你懂的| 午夜精品久久久久久久久久久久久蜜桃| 59pao成国产成视频永久免费| 日本理伦片在线播放| 5分钟aa试看| 无处安放电影完整版在线观看免费| 亚洲xxxx动漫| 日本A片色情AAA片wwwCccC| 《我的漂亮老师2》| 亚洲日本va在线观看| jzjzjzcom老师水多免费| 被糙汉抱着抬腿C哭H| 欧美激情一二区| 阴茎插入阴道视频|