男揉女奶gif动态图,男男受被攻做到腿发颤高H漫画,陈冠希艳照无码一区色情

主頁 > 知識庫 > 解決pytorch load huge dataset(大數據加載)

解決pytorch load huge dataset(大數據加載)

問題

最近用pytorch做實驗時，遇到加載大量數據的問題。實驗數據大小在400Gb，而本身機器的memory只有256Gb，顯然無法將數據一次全部load到memory。

解決方法

首先自定義一個MyDataset繼承torch.utils.data.Dataset，然后將MyDataset的對象feed in torch.utils.data.DataLoader()即可。

MyDataset在__init__中聲明一個文件對象，然后在__getitem__中緩慢讀取數據，這樣就不會一次把所有數據加載到內存中了。訓練數據存放在train.txt中，每一行是一條數據記錄。

import torch.utils.data as Data
from tqdm import tqdm
class MyDataset(Data.Dataset):
	def __init__(self,filepath):
		number = 0
		with open(filepath,"r") as f:
			# 獲得訓練數據的總行數
			for _ in tqdm(f,desc="load training dataset"):
				number+=1
		self.number = number
		self.fopen = open(filepath,'r')
	def __len__(self):
		return self.number
	def __getitem__(self,index):
		line = self.fopen.__next__()
		# 自定義transform()對訓練數據進行預處理
		data = transform(line)
		return data

train_dataset = MyDataset(filepath = "train.txt")
training_data = Data.DataLoader(dataset=train_dataset, batch_size=32,num_workers=1)

注意

1、num_workers只能設置為1。因為MyDataset初始化時只有一個文件對象，在dataloader時num_workers=1只用一個線程去操作文件對象讀取數據。如果num_workers>1, 會出錯，多個線程同時操作同一個文件對象，得到的數據并不是你想要的。

2、每一個epoch結束以后，需要重新聲明train_dataset和training_data。因為一個epoch結束以后，文件對象已經指向文件末尾，下一個epoch取數據時，什么也得不到。

3、因為這里__getitem__()只是順序的從文件中取出一行，而與index無關，那么在DataLoader時，即使參數shuffle指定為True，得到的數據依然是順序的，即該方法無法shuffle數據。

補充：Pytorch加載自己的數據集(使用DataLoader讀取Dataset)

1. 我們經常可以看到Pytorch加載數據集會用到官方整理好的數據集

很多時候我們需要加載自己的數據集，這時候我們需要使用Dataset和DataLoader

Dataset：是被封裝進DataLoader里，實現該方法封裝自己的數據和標簽。

DataLoader：被封裝入DataLoaderIter里，實現該方法達到數據的劃分。

2.Dataset

閱讀源碼后，我們可以指導，繼承該方法必須實現兩個方法：

_getitem_()

_len_()

因此，在實現過程中我們測試如下：

import torch
import numpy as np

# 定義GetLoader類，繼承Dataset方法，并重寫__getitem__()和__len__()方法
class GetLoader(torch.utils.data.Dataset):
	# 初始化函數，得到數據
    def __init__(self, data_root, data_label):
        self.data = data_root
        self.label = data_label
    # index是根據batchsize劃分數據后得到的索引，最后將data和對應的labels進行一起返回
    def __getitem__(self, index):
        data = self.data[index]
        labels = self.label[index]
        return data, labels
    # 該函數返回數據大小長度，目的是DataLoader方便劃分，如果不知道大小，DataLoader會一臉懵逼
    def __len__(self):
        return len(self.data)

# 隨機生成數據，大小為10 * 20列
source_data = np.random.rand(10, 20)
# 隨機生成標簽，大小為10 * 1列
source_label = np.random.randint(0,2,(10, 1))
# 通過GetLoader將數據進行加載，返回Dataset對象，包含data和labels
torch_data = GetLoader(source_data, source_label)

3.DataLoader

提供對Dataset的操作，操作如下：

torch.utils.data.DataLoader(dataset,batch_size,shuffle,drop_last，num_workers)

參數含義如下：

dataset：加載torch.utils.data.Dataset對象數據

batch_size：每個batch的大小

shuffle：是否對數據進行打亂

drop_last：是否對無法整除的最后一個datasize進行丟棄

num_workers：表示加載的時候子進程數

因此，在實現過程中我們測試如下（緊跟上述用例）：

from torch.utils.data import DataLoader

# 讀取數據
datas = DataLoader(torch_data, batch_size=6, shuffle=True, drop_last=False, num_workers=2)

此時，我們的數據已經加載完畢了，只需要在訓練過程中使用即可。

4.查看數據

我們可以通過迭代器（enumerate）進行輸出數據，測試如下：

for i, data in enumerate(datas):
 # i表示第幾個batch， data表示該batch對應的數據，包含data和對應的labels
    print("第 {} 個Batch \n{}".format(i, data))

輸出結果如下圖：

結果說明：由于數據的是10個，batchsize大小為6，且drop_last=False，因此第一個大小為6，第二個為4。每一個batch中包含data和對應的labels。

當我們想取出data和對應的labels時候，只需要用下表就可以啦，測試如下：

# 表示輸出數據
print(data[0])
# 表示輸出標簽
print(data[1])

結果如圖：

以上為個人經驗，希望能給大家一個參考，也希望大家多多支持腳本之家。

您可能感興趣的文章:

Pytorch數據讀取之Dataset和DataLoader知識總結
Pytorch自定義Dataset和DataLoader去除不存在和空數據的操作
pytorch Dataset,DataLoader產生自定義的訓練數據案例
PyTorch實現重寫/改寫Dataset并載入Dataloader
一文弄懂Pytorch的DataLoader, DataSet, Sampler之間的關系
Pytorch 定義MyDatasets實現多通道分別輸入不同數據方式
PyTorch 解決Dataset和Dataloader遇到的問題

標簽：成都駐馬店蘭州山東六盤水江蘇常州宿遷

巨人網絡通訊聲明：本文標題《解決pytorch load huge dataset(大數據加載)》，本文關鍵詞解決,pytorch,load,huge,dataset,；如發現本文內容存在版權問題，煩請提供相關信息告之我們，我們將及時溝通與處理。本站內容系統采集于網絡，涉及言論、版權與本站無關。

下面列出與本文章《解決pytorch load huge dataset(大數據加載)》相關的同類信息！

解決pytorch load huge dataset(大數據加載)

問題最近用pytorch做實驗時，遇到加載大量數據的問題。實驗數據大小在400Gb，而本身機器的memory只有256Gb，顯然無法將數據一次全部load到memory。解決方法首先自定義一個MyDataset繼承...

10-18

商標注冊人的權利和義務

（一）商標注冊人的權利商標注冊人的權利主要是指對注冊商標所享有的專用權。我國《商標法》規定：經商標局核準注冊...

10-23

西安5G電話線路詳情-專業服務

西安5G電話線路詳情因此，對于從事電銷業的企業，或對某些從事電話銷售的企業來說，智能電銷機器人是一個好的選擇。目...

01-15

聯通116114為廣交會客商提供無憂服務

第109屆廣交會期間，廣東聯通整合了116114業務的酒店機票預訂、交通顧問等服務，為廣交會客商提供無憂服務。據悉，1161...

10-19

ai外呼電話機器人（ai外呼機器人費用）

本文目錄一覽： 1、這個獵星AI智能外呼機器人好用嗎？2、ai智能電話機器人有什么作用？3、AI語音機器人有哪些好處4、智...

11-27

電銷卡公司封號咋辦

對于電話銷售人員來說，他們每天都要使用手機卡撥打電銷電話，可以說呼出頻率是非常高的，如果使用三大運營商發行的手...

12-16

有準確率很高的空號檢測軟件嗎？

怎么解決手機空號這一麻煩事呢，用手機空號檢測就能解決，現在手機空號檢測的軟件在網上一搜出來的太多，一時之間不知...

12-03

重慶電銷機器人代勞

匯港通自決研制鑒于大數據、云計劃的產物。扶助大中小企業提率，提高管理，優化運維。移動crm經過大數據、云計劃調整云...

10-31

突發：剛剛，美國官方宣布“封殺”中國移動！！！移動公司重磅回應...

12-04

電話智能機器人怎么樣，到底有沒有效果

人工客服收到工作時間、效率以及工作量的限制，已經無法完全適應部分企業的呼叫業務。通過AI智能軟件系統的協助，完成...

07-12

電銷顧客資源怎么找？

電銷顧客資源怎么找？在電話銷售過程中，正確的尋找到意向顧客是我們做電話銷售人員的關鍵的一步。電話銷售人員在每...

10-24

什么是客服外包，怎么挑選靠譜公司合作？

什么是客服外包？客服外包，是指企業將客服工作交由其他企業負責，客服外包類型主要有：售前咨詢、售后服務等。這對...

01-16

客服中心服務量話量預測入門

服務預測與排班是大部分服務行業有效管理的關鍵環節，尤其是客服中心，對服務預測準確度要求高，對排班的舒適性和效率...

10-22

重慶高院終審判決假冒“簡單搜索”網站賠償百度80萬元

來源：中國知識產權資訊網一個域名為“baidu”的搜索網站，卻被法院判決賠償百度公司80萬元。這究竟是為何？ “百度推...

10-23

400電話辦理一年多少錢？解析金錢背后的談判技巧、價格構成、影響因素和節省策略-400電話辦

在商業社會中，電話交流作為最直接的聯系方式，一直被視為商業合作的重要手段。而在以客戶為中心的營銷模式中，400電話...

07-21

一鍵呼救911呼叫中心！Uber推出呼叫功能提高救援效率

據境外媒體報道，讓報警電話時用戶的定位變得更準確，這不僅是在優化應急流程，更可能是在生死關頭提高救援效率。FC...

10-19

上半年重慶市服務外包執行額達4.7億美元增長169%

重慶頻道消息 6月30日,記者從"2013重慶市服務貿易工作會"上獲悉,今年上半年我市服務外包執行額達4.7億美元,同比增長169%。此...

10-22

在正規平臺辦理電銷卡的好處

選擇電話營銷時，重要的及時電話卡了，但是使用普通的電話卡因為電話的數量較多就很容易被封，那么就需要去辦理電銷卡...

12-04

10-23

精確定位店位置多少錢？精確定位位置？

北京現代4s店裝gps定位多少錢？如果需要可以去汽配城和GPS公司安裝，記著要軟件客戶端、賬號和密碼。你可以貨比三家，一...

11-26

大理州電銷機器人培訓（電銷機器人話術劇情）

本文目錄一覽： 1、學習工業機器人到哪里學啊？2、電銷機器人究竟多少錢？價格往來不斷怎樣這么大3、有誰用過電銷機器...

04-22

合肥智能電銷網絡線路辦理服務商-誠信合作

合肥智能電銷網絡線路辦理服務商它不只能提高企業的營銷效率，還能幫助企業提高服務效率，除此之外，企業搭建智能電銷...

01-16

干洗商標該如何選擇合適的類別呢？

所謂三百六十五行行行出狀元，現在社會工種也是特別多，只要想的出到，都是有市場的，很多人買的衣服都是品牌，自己又...

10-23

viewport.exe進程是什么意思

進程文件： viewport or viewport.exe 進程名稱： ATI/Appian HydraVision Desktop Manager 進程類別：存在安全風險的進程英文描述： viewpo...

10-19

windows2000下C盤權限設置

1.選取整個硬盤： system：完全控制 administrator：完全控制 (允許將來自父系的可繼承性權限傳播給對象) 2/programfiles/commonfiles：...

10-20

建立品牌美謄度的策略

品牌競爭是市場競爭在經歷了價格、質量、服務等各方面的較量之后進入的一個新階段。品牌與產品不同，它強調系統性和全...

10-23

銀川智能外呼系統價格（外呼系統收費）

本文目錄一覽： 1、外呼體系裝置須要哪些用度？ 2、召喚焦點或外呼體系哪種又廉價又好的啊 3、智能外呼體系幾何錢？ 4、...

11-26

400電話漏接短信功能意義有多大?

當企業漏接掉一個電話，400電話客服會在一定時間給企業發去漏接短信，這就很大程度上降低了企業漏接電話而造成的損失。...

12-22

易才博普奧為全球最大中文書籍零售商提供整體人力資源外包服務

CTI論壇(ctiforum)6月30日消息（記者楊佳林）：人力資源外包專家、服務外包產業專業人才租賃供應商---北京易才博普奧管理顧...

10-19

400電話的智能網平臺是怎么回事

對于400電話這樣的一種業務，很多人是不了解的，甚至不知道這樣一種業務的存在，畢竟自己從來沒有接觸過這樣一種類型的...

05-16

消費級物聯網專用卡14103怎么激活（電信物聯卡14104激活）

141號段是電信物聯卡號段，作為目前物聯網市場上最大的物聯卡運營商，電信物聯卡其卡片的穩定性和質量得到的一致好評。...

11-07

AI電話機器人是騙局嗎（ai電話智能機器人）

本文目錄一覽：1、ai電話詐騙是怎么回事兒?2、如何預防利用AI電話詐騙的騙局?3、ai電話詐騙,是真的嗎?4、江蘇鎮江一騙子用...

06-20

云外呼系統質量

外呼系統是一種具有完善防封功能以及客戶管理后臺的系統，目前電銷行業現在面臨的問題就是現在封號問題嚴重，不管用哪...

11-27

電銷行業大革命，電銷機器人到底帶來了什么

電銷領域革命，電銷機器人究竟帶給了哪些在2017年電銷領域早已進入了一個乏力的環節：大家抵觸電銷的電話，只需已接...

01-15

win7升級win8.1后360瀏覽器打不開了怎么辦？

原先安裝win7系統換為win8.1update（win8應該適用），之前安裝在D盤的360極速/安全瀏覽器無法打開，可使用此方法。軟件名稱：...

10-20

福州房產電話呼叫軟件在哪可以辦理,電銷系統-[熱門]

福州房產電話呼叫軟件在哪可以辦理,電銷系統因為電話營銷機器人可以更好的進行智能交流，所以就會讓廣大客戶的好感度...

12-17

淺談400電話企業客服的有力工具

現在各行各業的發展都離不開互聯網，企業更是如此，現在越來越多的企業開始了網絡營銷的征程，都想讓自己的業務在互聯...

12-22

win8圖片庫加入圖片的方法介紹

Win8系統中的Metro界面真是灰常漂亮啊，我就喜歡在這界面下用不過可以用的軟件真是少。Metro界面中的相片下的圖片庫，你打...

10-20

嘉興不封號呼叫中心軟件多少錢,呼叫中心軟件辦理費用-信譽保證

嘉興不封號呼叫中心軟件多少錢,呼叫中心軟件辦理費用預計電銷機器人將會大規模運用，智能電銷機器人的市場份額將逐步...

12-17

智能外呼系統對接網關（智能外呼系統對接網關有什么用）

今天給各位分享智能外呼系統對接網關的知識，其中也會對智能外呼系統對接網關有什么用進行解釋，如果能碰巧解決你現在...

11-06

辦400電話需要多少錢開通一個400電話需要多少錢？

400電話由主電話和被電話分擔，即400電話承擔市政電話接入費，被電話承擔所有400電話接聽費。影響400電話價格的因素很多...

01-12

巨人科技如何來管理員工

任何公司對自己員工的管理工作都是非常重要的，只有我們真正的做好各個方面的管理，你就會發現其實所有的事情都能夠有...

05-15

Ruby中的block、proc、lambda區別總結

在規則引擎中，Ruby 的閉包使用特別頻繁，而且有 block，Proc和 lambda 等后幾種形式的用法，很讓人困惑。為了深入理解代碼，...

10-18

陽江智能外呼系統（ai智能外呼系統銷售）

本文目錄一覽： 1、自動外呼系統是什么，使用自動外呼營銷系統違法嗎？ 2、什么是智能外呼營銷系統？求詳細解答 3、自動...

11-24

寧波教育AI電話機器人辦理價格-放心省心

寧波教育AI電話機器人辦理價格進員工難以跟進。流失率居高不下：銷售工作單調乏味，流失率居高不下。現在對于很多的傳...

01-16

手機坐席與PC端云呼叫中心有哪些區別

疫情期間坐席受制于網絡條件或者沒帶電腦，手機坐席是坐席居家辦公的一種新方式，適合沒有電腦或者更愿意使用手機的坐...

12-07

Python基礎之hashlib模塊詳解

目錄一、hashlib簡介二、hash對象的方法三、hashlib實際操作四、小小案例一、hashlib簡介 1.什么叫hash: hash是一種算法（不同...

10-18

現在最火的餐飲加盟項目有哪些？你覺得現在餐飲行業好做嗎？

2018年最火的餐飲加盟店之貝克士漢堡現在社會的生活方式都是快節奏的，人們會為了節省更多的時間而去選擇快餐。然而漢...

12-14

靚車spavip會所企業彩鈴錄音

您好，歡迎致電靚車spavip會所。我們以專業的技術，為您的愛車提供汽車美容、精品裝具、鍍晶、鍍膜、防爆膜、封釉等專業...

11-27

電銷機器人未來趨勢圖分析（機器人銷售前景）

本文目次一覽： 1、AI智能電銷呆板人阛阓前景如何樣？ 2、德律風發售將來的走向是什么？ 3、中科嘉智電銷呆板人將來的發...

11-26

廊坊電銷卡好用嗎

廊坊電銷卡好用嗎 "本公司是一家專業做電銷卡的通訊公司！十年行業經驗為為您保駕護航！卡種多，歸屬地齊全。滿足不同...

12-15

解決pytorch load huge dataset(大數據加載)

10-18

本頁收集關于解決pytorch load huge dataset(大數據加載)的相關信息資訊供網民參考！

推薦文章

上一篇：解決pytorch rnn 變長輸入序列的問題

下一篇：Python開發加薪利器之Docker的使用實踐

一起分享吧

好湿?好紧?好多水好爽自慰,久久久噜久噜久久综合,成人做爰A片免费看黄冈,机机对机机30分钟无遮挡

解決pytorch load huge dataset(大數據加載)

問題

解決方法

注意

1. 我們經常可以看到Pytorch加載數據集會用到官方整理好的數據集

2.Dataset

3.DataLoader

4.查看數據