好湿?好紧?好多水好爽自慰,久久久噜久噜久久综合,成人做爰A片免费看黄冈,机机对机机30分钟无遮挡

主頁 > 知識庫 > 通過抓取淘寶評論為例講解Python爬取ajax動態生成的數據(經典)

通過抓取淘寶評論為例講解Python爬取ajax動態生成的數據(經典)

熱門標簽:徐州電銷卡外呼系統供應商 老虎郵局地圖標注點 科智聯智能電銷機器人 襄陽外呼系統接口 外呼系統獲取客戶手機號 目標三維地圖標注 上海浦東百度地圖標注中心注冊 百靈鳥 青海醫療智能外呼系統怎么樣

在學習python的時候,一定會遇到網站內容是通過 ajax動態請求、異步刷新生成的json數據 的情況,并且通過python使用之前爬取靜態網頁內容的方式是不可以實現的,所以這篇文章將要講述如果在python中爬取ajax動態生成的數據。

至于讀取靜態網頁內容的方式,有興趣的可以查看本文內容。

這里我們以爬取淘寶評論為例子講解一下如何去做到的。

這里主要分為了四步:

一 獲取淘寶評論時,ajax請求鏈接(url)

二 獲取該ajax請求返回的json數據

三 使用python解析json數據

四 保存解析的結果

步驟一:

獲取淘寶評論時,ajax請求鏈接(url)這里我使用的是Chrome瀏覽器來完成的。打開淘寶鏈接,在搜索框中搜索一個商品,比如“鞋子”,這里我們選擇第一項商品。

 

然后跳轉到了一個新的網頁中。在這里由于我們需要爬取用戶的評論,所以我們點擊累計評價。

 

然后我們就可以看到用戶對該商品的評價了,這時我們在網頁中右擊選擇審查元素(或者直接使用F12打開)并且選中Network選項,如圖所示:

 

我們在用戶評論中,翻到底部 點擊下一頁或者第二頁,我們在Network中看到動態添加了幾項,我們選擇開頭為list_detail_rate.htm?itemId=35648967399的一項。

 

然后點擊該選項,我們可以在右邊選項框中看到有關該鏈接的信息,我們要復制Request URL中的鏈接內容。

 

我們在瀏覽器的地址欄中輸入剛才我們獲得url鏈接,打開后我們會發現頁面返回的是我們所需要的數據,不過顯得很亂,因為這是json數據。

 

二 獲取該ajax請求返回的json數據

下一步,我們就要獲取url中的json數據了。我所使用的python編輯器是pycharm,下面看一下python代碼:

# -*- coding: utf-8 -*-
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
import requests
url='https://rate.tmall.com/list_detail_rate.htm?itemId=35648967399spuId=226460655sellerId=1809124267ℴ=3currentPage=1append=0content=1tagId=posi=picture=ua=011UW5TcyMNYQwiAiwQRHhBfEF8QXtHcklnMWc%3D%7CUm5OcktyT3ZCf0B9Qn9GeC4%3D%7CU2xMHDJ7G2AHYg8hAS8WKAYmCFQ1Uz9YJlxyJHI%3D%7CVGhXd1llXGVYYVVoV2pVaFFvWGVHe0Z%2FRHFMeUB4QHxCdkh8SXJcCg%3D%3D%7CVWldfS0RMQ47ASEdJwcpSDdNPm4LNBA7RiJLDXIJZBk3YTc%3D%7CVmhIGCUFOBgkGiMXNwswCzALKxcpEikJMwg9HSEfJB8%2FBToPWQ8%3D%7CV29PHzEfP29VbFZ2SnBKdiAAPR0zHT0BOQI8A1UD%7CWGFBET8RMQszDy8QLxUuDjIJNQA1YzU%3D%7CWWBAED4QMAU%2BASEYLBksDDAEOgA1YzU%3D%7CWmJCEjwSMmJXb1d3T3JMc1NmWGJAeFhmW2JCfEZmWGw6GicHKQcnGCUdIBpMGg%3D%3D%7CW2JfYkJ%2FX2BAfEV5WWdfZUV8XGBUdEBgVXVJciQ%3Disg=82B6A3A1ED52A6996BCA2111C9DAAEE6_ksTS=1440490222698_2142callback=jsonp2143' #這里的url比較長
content=requests.get(url).content

print content #打印出來的內容就是我們之前在網頁中獲取到的json數據。包括用戶的評論。

這里的content就是我們所需要的json數據,下一步就需要我們解析這些個json數據了。

三 使用python解析json數據

# -*- coding: utf-8 -*-
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
import requests
import json
import re
url='https://rate.tmall.com/list_detail_rate.htm?itemId=35648967399spuId=226460655sellerId=1809124267ℴ=3currentPage=1append=0content=1tagId=posi=picture=ua=011UW5TcyMNYQwiAiwQRHhBfEF8QXtHcklnMWc%3D%7CUm5OcktyT3ZCf0B9Qn9GeC4%3D%7CU2xMHDJ7G2AHYg8hAS8WKAYmCFQ1Uz9YJlxyJHI%3D%7CVGhXd1llXGVYYVVoV2pVaFFvWGVHe0Z%2FRHFMeUB4QHxCdkh8SXJcCg%3D%3D%7CVWldfS0RMQ47ASEdJwcpSDdNPm4LNBA7RiJLDXIJZBk3YTc%3D%7CVmhIGCUFOBgkGiMXNwswCzALKxcpEikJMwg9HSEfJB8%2FBToPWQ8%3D%7CV29PHzEfP29VbFZ2SnBKdiAAPR0zHT0BOQI8A1UD%7CWGFBET8RMQszDy8QLxUuDjIJNQA1YzU%3D%7CWWBAED4QMAU%2BASEYLBksDDAEOgA1YzU%3D%7CWmJCEjwSMmJXb1d3T3JMc1NmWGJAeFhmW2JCfEZmWGw6GicHKQcnGCUdIBpMGg%3D%3D%7CW2JfYkJ%2FX2BAfEV5WWdfZUV8XGBUdEBgVXVJciQ%3Disg=82B6A3A1ED52A6996BCA2111C9DAAEE6_ksTS=1440490222698_2142callback=jsonp2143'
cont=requests.get(url).content
rex=re.compile(r'\w+[(]{1}(.*)[)]{1}')
content=rex.findall(cont)[0]
con=json.loads(content,"gbk")
count=len(con['rateDetail']['rateList'])
for i in xrange(count):
  print con['rateDetail']['rateList'][i]['appendComment']['content']

  

解析:

這里需要導入所要的包,re為正則表達式需要的包,解析json數據需要import json

cont=requests.get(url).content #獲取網頁中json數據

rex=re.compile(r'\w+[(]{1}(.*)[)]{1}') #正則表達式去除cont數據中多余的部分,是數據成為真正的json格式的數據{“a”:”b”,”c”:”d”}

con=json.loads(content,”gbk”) 使用json的loads函數 將content內容轉化為json庫函數可以處理的數據格式,”gbk”為數據的編碼方式,由于win系統默認為gbk

count=len(con[‘rateDetail'][‘rateList']) #獲取用戶評論的個數(這里只是當前頁的)

for i in xrange(count):

print con[‘rateDetail'][‘rateList'][i][‘appendComment']

#循環遍歷用戶的評論 并輸出(也可以根據需求保存數據,可以查看第四部分)

這里的難點是在雜亂的json數據中查找用戶評論的路徑

四 保存解析的結果

這里用戶可以將用戶的評論信息保存到本地,如保存為csv格式。

以上就是本文的全部所述,希望大家喜歡。

您可能感興趣的文章:
  • python+selenium定時爬取丁香園的新型冠狀病毒數據并制作出類似的地圖(部署到云服務器)
  • python 爬取疫情數據的源碼
  • 用python爬取歷史天氣數據的方法示例
  • Python大數據之從網頁上爬取數據的方法詳解
  • python多線程+代理池爬取天天基金網、股票數據過程解析
  • Python如何爬取實時變化的WebSocket數據的方法
  • 實例講解Python爬取網頁數據
  • Python爬取數據并寫入MySQL數據庫的實例
  • python爬蟲爬取網頁表格數據
  • python爬取網站數據保存使用的方法
  • 如何用python爬取微博熱搜數據并保存

標簽:紅河 咸寧 荊州 佛山 揭陽 辛集 股票 商洛

巨人網絡通訊聲明:本文標題《通過抓取淘寶評論為例講解Python爬取ajax動態生成的數據(經典)》,本文關鍵詞  通過,抓取,淘寶,評論,為例,;如發現本文內容存在版權問題,煩請提供相關信息告之我們,我們將及時溝通與處理。本站內容系統采集于網絡,涉及言論、版權與本站無關。
  • 相關文章
  • 下面列出與本文章《通過抓取淘寶評論為例講解Python爬取ajax動態生成的數據(經典)》相關的同類信息!
  • 本頁收集關于通過抓取淘寶評論為例講解Python爬取ajax動態生成的數據(經典)的相關信息資訊供網民參考!
  • 推薦文章
    主站蜘蛛池模板: 2023av在线播放| 欧美一级的片| 色综合网天天综合色中文男男| 亚洲第一久久| 欧美一级婬片A片无码电影荒村 | 母狗校花| 娇妻被老外撑大1~5章| 欧美日韩在线观看精品| 国精产品秘?天美一区| 亚洲偷窥另类XXXXX乱室佳宾| 嗯快点别停舒服好爽受不了了| 色欲AV天天天久久久综合网88 | 国产a精品| 717秋霞三级good在线观看| 十大色情禁片未删减版百度云| 亚洲综合图色国模40p| 妖精公主妮娜免费观看动漫全集| 真人一级毛片一级是A片真人片| 禁漫?天堂?H漫画网站| 双性饥渴放荡受np合集| 最近好看的2019免费大全电影| 男人色综合| 久久www免费人成高清| 新婚晓静与翁公| 日本又嫩又爽又黄的A片| 台湾三级毛片| 办公室大尺度| 国产精品美女网站在线观看| 蜜桃特级做a爰片毛片免费69 | 短篇辣文小说合集| 无码视频2018| 男男性猛交ⅩXXX乱电影在线观看| 波多野结衣一区二区三区在线视频 | 男男肉车各种play涨奶宿舍小说| 四叶草m码和欧洲码的888区别| 三上悠亚2022最新新作番号| 校花奶好大好爽小依| 东南亚呦妓www在线| 国产精品国产三级国产普通话| 三浦理息与子亂伦A片在线观看| 91国视频在线|