好湿?好紧?好多水好爽自慰,久久久噜久噜久久综合,成人做爰A片免费看黄冈,机机对机机30分钟无遮挡

主頁 > 知識庫 > python數據抓取3種方法總結

python數據抓取3種方法總結

熱門標簽:高德地圖標注字母 千呼ai電話機器人免費 外呼系統前面有錄音播放嗎 深圳網絡外呼系統代理商 柳州正規電銷機器人收費 400電話辦理費用收費 鎮江人工外呼系統供應商 騰訊地圖標注有什么版本 申請辦個400電話號碼

三種數據抓取的方法

  • 正則表達式(re庫)
  • BeautifulSoup(bs4)
  • lxml

*利用之前構建的下載網頁函數,獲取目標網頁的html,我們以https://guojiadiqu.bmcx.com/AFG__guojiayudiqu/為例,獲取html。

from get_html import download

url = 'https://guojiadiqu.bmcx.com/AFG__guojiayudiqu/'
page_content = download(url)

*假設我們需要爬取該網頁中的國家名稱和概況,我們依次使用這三種數據抓取的方法實現數據抓取。

1.正則表達式

from get_html import download
import re

url = 'https://guojiadiqu.bmcx.com/AFG__guojiayudiqu/'
page_content = download(url)
country = re.findall('class="h2dabiaoti">(.*?)/h2>', page_content) #注意返回的是list
survey_data = re.findall('tr>td bgcolor="#FFFFFF" id="wzneirong">(.*?)/td>/tr>', page_content)
survey_info_list = re.findall('p>  (.*?)/p>', survey_data[0])
survey_info = ''.join(survey_info_list)
print(country[0],survey_info)

2.BeautifulSoup(bs4)

from get_html import download
from bs4 import BeautifulSoup

url = 'https://guojiadiqu.bmcx.com/AFG__guojiayudiqu/'
html = download(url)
#創建 beautifulsoup 對象
soup = BeautifulSoup(html,"html.parser")
#搜索
country = soup.find(attrs={'class':'h2dabiaoti'}).text
survey_info = soup.find(attrs={'id':'wzneirong'}).text
print(country,survey_info)

3.lxml

from get_html import download
from lxml import etree #解析樹

url = 'https://guojiadiqu.bmcx.com/AFG__guojiayudiqu/'
page_content = download(url)
selector = etree.HTML(page_content)#可進行xpath解析
country_select = selector.xpath('//*[@id="main_content"]/h2') #返回列表
for country in country_select:
 print(country.text)
survey_select = selector.xpath('//*[@id="wzneirong"]/p')
for survey_content in survey_select:
 print(survey_content.text,end='')

運行結果:

最后,引用《用python寫網絡爬蟲》中對三種方法的性能對比,如下圖:

僅供參考。

總結

到此這篇關于python數據抓取3種方法的文章就介紹到這了,更多相關python數據抓取內容請搜索腳本之家以前的文章或繼續瀏覽下面的相關文章希望大家以后多多支持腳本之家!

您可能感興趣的文章:
  • python采用requests庫模擬登錄和抓取數據的簡單示例
  • Python爬蟲抓取手機APP的傳輸數據
  • 通過抓取淘寶評論為例講解Python爬取ajax動態生成的數據(經典)
  • python抓取某汽車網數據解析html存入excel示例
  • Python實現并行抓取整站40萬條房價數據(可更換抓取城市)
  • Python基于多線程實現抓取數據存入數據庫的方法
  • 對python抓取需要登錄網站數據的方法詳解
  • 在Python3中使用asyncio庫進行快速數據抓取的教程
  • Python抓取京東圖書評論數據
  • 使用Python抓取豆瓣影評數據的方法

標簽:烏蘭察布 平頂山 大慶 合肥 烏蘭察布 哈爾濱 海南 郴州

巨人網絡通訊聲明:本文標題《python數據抓取3種方法總結》,本文關鍵詞  python,數據,抓取,3種,方法,;如發現本文內容存在版權問題,煩請提供相關信息告之我們,我們將及時溝通與處理。本站內容系統采集于網絡,涉及言論、版權與本站無關。
  • 相關文章
  • 下面列出與本文章《python數據抓取3種方法總結》相關的同類信息!
  • 本頁收集關于python數據抓取3種方法總結的相關信息資訊供網民參考!
  • 推薦文章
    主站蜘蛛池模板: 男人扒开添女人的P免费软件| 黄带一级片| 公车故意穿短裙被强bl爽翻小说| 花怜乳尖毛笔play惩罚| 欧洲同性男男黄h片在线播放| 中国性孕妇xxxxxxxx孕交| 欢迎来到浪荡精灵森林游戏| h不要磨了嗯快穿| 金瓶之爱奴1在线播放bd| 狠狠狠色丁香婷婷综合久久五月| 欧美老妇Ⅹ乄乂?多毛AV在线| 美女又爽?又黄?偷拍小说| 站长推荐国产午夜免费视频| free性部落非洲video| 含羞草实验室传媒网站入口| 班花没戴奶罩被捏了一节课 女生 同桌帮我自慰好爽再深点受不了 我扒开下面自慰给同桌看 | 女警被调教| 男人又粗又黄桶女人免费视频| 91网站免费看| 精品国产乱码一区二区三区APP| 总攻NP玩遍男主们| 国产一级做a爰片在线| 男男高h双性| 鲤鱼乡甜梦文库| 香大伊煮香大伊煮大象大象| 午夜免费直播| 思思久99久女女精品| yw尤物av无码点击进入老司机| 老司机午夜在线AV欧美| 啊老板换个地方做gif动态图| 美女隐私视频黄www| 日本激情视频在线观看| 日本成熟妇人A片高潮下载| 欧美精品中文| 麻豆freehdxxxxchinese| 国产jizzhd精品国产| 韩漫无羞遮无删减H漫画私密授课 秘?韩H漫画免费羞羞漫画观看 | 亚洲精品国产精品乱码在线观看女| www色多多| 综合伊人| 王雨纯人体全身裸一翻到低|