背景
最近在搞爬蟲,很多小組件里面都使用了 Python 的 requests 庫,很好用,很強大。
但最近發現很多任務總是莫名其妙的卡住,不報錯,但是就是不繼續執行。
排查了一圈,最后把問題鎖定在 requests 的 timeout 機制上。
注:本文討論的是 Python 的第三方模塊 requests,并不是 Python 內建模塊 urllib 中的 request 模塊,請注意區分。
如何設置超時時間
requests 設置超時時間有兩種方式。
一種是設置單一值作為 timeout,如下所示:
r = requests.get('https://github.com', timeout=5)
這時, timeout 值將會用作 connect 和 read 二者的共同的超時時間。
另一種是分別制定連接超時和讀取超時的時間,如下所示:
r = requests.get('https://github.com', timeout=(3.05, 27))
這里前面的 3.05 表示連接超時時間,27 表示讀取超時時間。
官方一般推薦大家把連接超時時間設置為比 3 的整數倍稍微大一點的時間,比如 3.05、6.05 這樣,具體原因見 這里。
坑
上面提到的兩種超時時間,連接超時和讀取超時,并不是都有默認超時時間。
連接超時的默認時間是 21s,而讀取超時沒有默認時間,換句話說,不會超時。
也就是說,如果一個請求,連接成功了,正在讀取數據,但是此時服務器出現了什么問題,或者代理出現了什么問題,那么,這個請求就會一直卡住,不會報錯,也不會繼續。
天長地久。
避坑
所以,為了避免出現這樣的情況,給你的 requests 加上超時時間吧,尤其是請求量巨大的時候。
常在河邊走,哪有不濕鞋。
參考資料
Requests 官方文檔
補:python requests timeout不起作用 卡死
在使用python 的requests進行數據請求時不設置timeout大部分時候,是會有超時異常的,超時時間大概是20多秒
但是有時候超時會不起作用需要自己制定超時時間,使用timeout=60
response = requests.get(url, headers=headers, proxies=proxies,timeout=60)
但是有時候設置此參數之后仍然會有幾分鐘甚至是十幾分鐘沒有返回結果可以使用timeout=(50, 60)
timeout參數也可以傳入一個包含兩個簡單浮點數的元組,用來分別設置請求超時時間和讀取超時時間。
response = requests.get(url, headers=headers, proxies=proxies,timeout=(50, 60))
到此這篇關于Python requests timeout的設置的文章就介紹到這了,更多相關Python requests timeout內容請搜索腳本之家以前的文章或繼續瀏覽下面的相關文章希望大家以后多多支持腳本之家!
您可能感興趣的文章:- python:解析requests返回的response(json格式)說明
- python requests response值判斷方式
- python中requests庫+xpath+lxml簡單使用
- python3 requests 各種發送方式詳解
- Python爬蟲基礎之requestes模塊
- python爬蟲之利用Selenium+Requests爬取拉勾網
- 基于Python中request請求得到的response的屬性問題