初尝黑人巨炮波多野结衣在线,国产精品婬乱一区二区三区视频

pytorch中為什么要用 zero_grad() 將梯度清零

調用backward()函數之前都要將梯度清零，因為如果梯度不清零，pytorch中會將上次計算的梯度和本次計算的梯度累加。

這樣邏輯的好處是，當我們的硬件限制不能使用更大的bachsize時，使用多次計算較小的bachsize的梯度平均值來代替，更方便，壞處當然是每次都要清零梯度。

optimizer.zero_grad()
output = net(input)
loss = loss_f(output, target)
loss.backward()

補充：Pytorch 為什么每一輪batch需要設置optimizer.zero_grad

CSDN上有人寫過原因，但是其實寫得繁瑣了。

根據pytorch中的backward()函數的計算，當網絡參量進行反饋時，梯度是被積累的而不是被替換掉；但是在每一個batch時毫無疑問并不需要將兩個batch的梯度混合起來累積，因此這里就需要每個batch設置一遍zero_grad 了。

其實這里還可以補充的一點是，如果不是每一個batch就清除掉原有的梯度，而是比如說兩個batch再清除掉梯度，這是一種變相提高batch_size的方法，對于計算機硬件不行，但是batch_size可能需要設高的領域比較適合，比如目標檢測模型的訓練。

關于這一點可以參考這里

關于backward()的計算可以參考這里

補充：pytorch 踩坑筆記之w.grad.data.zero_()

在使用pytorch實現多項線性回歸中，在grad更新時，每一次運算后都需要將上一次的梯度記錄清空，運用如下方法:

w.grad.data.zero_()
b.grad.data.zero_()

但是，運行程序就會報如下錯誤：

報錯，grad沒有data這個屬性，

原因是，在系統將w的grad值初始化為none，第一次求梯度計算是在none值上進行報錯，自然會沒有data屬性

修改方法：添加一個判斷語句，從第二次循環開始執行求導運算

for i in range(100):
    y_pred = multi_linear(x_train)
    loss = getloss(y_pred,y_train)
    if i != 0:
        w.grad.data.zero_()
        b.grad.data.zero_()
    loss.backward()
    w.data = w.data - 0.001 * w.grad.data
    b.data = b.data - 0.001 * b.grad.data

以上為個人經驗，希望能給大家一個參考，也希望大家多多支持腳本之家。

您可能感興趣的文章:

PyTorch梯度裁剪避免訓練loss nan的操作
Pytorch訓練過程出現nan的解決方式
pytorch 權重weight 與梯度grad 可視化操作
PyTorch 如何檢查模型梯度是否可導
PyTorch 如何自動計算梯度
pytorch 梯度NAN異常值的解決方案

標簽：龍巖江蘇云南寧夏酒泉定西商丘金融催收

巨人網絡通訊聲明：本文標題《淺談pytorch中為什么要用 zero_grad() 將梯度清零》，本文關鍵詞淺談,pytorch,中,為什么,要用,；如發現本文內容存在版權問題，煩請提供相關信息告之我們，我們將及時溝通與處理。本站內容系統采集于網絡，涉及言論、版權與本站無關。

好湿?好紧?好多水好爽自慰,久久久噜久噜久久综合,成人做爰A片免费看黄冈,机机对机机30分钟无遮挡

淺談pytorch中為什么要用 zero_grad() 將梯度清零

pytorch中為什么要用 zero_grad() 將梯度清零