欧美夫妇互换XXOO,在线视频日韩精品

主頁 > 知識庫 > Python獲取江蘇疫情實時數據及爬蟲分析

Python獲取江蘇疫情實時數據及爬蟲分析

1.引言

最近江蘇南京、湖南張家界陸續爆發疫情，目前已波及8省22市，全國共有2個高風險地區，52個中風險地區。身在南京，作為兢兢業業的打工人，默默地成為了“蘇打綠”。為了關注疫情狀況，今天我們用python來爬一爬疫情的實時數據。

2.獲取目標網站

為了使用python來獲取疫情數據，我們需要找一個疫情實時追蹤數據發布網站，國內比較有名的是騰訊新聞、網易新聞等，這些網站疫情內容都大同小異，主要包括國內疫情、海外疫情，每日新增確診趨勢，疫苗接種情況等，這里我們選用騰訊新聞疫情發布頁來進行數據爬取分析。

網站分析：

使用chrome瀏覽器打開疫情發布頁網址，如上圖所示
我們按F12 進入開發者模式，按 ctrl+R 刷新頁面
在Network下找到 getOnsInfo?name=disease_h5列，獲得爬取目標網址

3.爬取目標網站

我們寫爬蟲爬取網站數據，需要安裝request庫，安裝命令如下：

pip3 install requests

只需要三行代碼就可以獲取該網頁內容，代碼如下：

url = 'https://view.inews.qq.com/g2/getOnsInfo?name=disease_h5'
req = requests.get(url=url)
content = json.loads(req.text)

打印爬去結果如下：

4.解析爬取內容

上述網站內容我們雖然爬取成功，接下來我們需要對爬取的結果進行解析，從中找出我們感興趣的部分。

4.1. 解析全國今日總況

相應的解析代碼如下：

def get_all_china(content):
    tmp_data = content["data"]
    area_data = json.loads(tmp_data)["areaTree"]
    country = area_data[0]
    country_list = []
    name = country["name"]
    today_confirm = country["today"]["confirm"]
    now_confirm = country["total"]["nowConfirm"]
    total_confirm = country["total"]["confirm"]
    total_heal = country["total"]["heal"]
    country_list.append([name, today_confirm, now_confirm, total_confirm, total_heal])
    return country_list

打印結果如下：

輸出太丑了，這里使用PrettyTable庫對輸出進行美化，代碼如下：

def format_list_prettytable(title,province_list):
    table = PrettyTable(title)
    for province in province_list:
        table.add_row(province)
    table.border = True
    return table

結果如下：

4.2. 解析全國各省份疫情情況

依次類推，可解析全國各省市疫情情況，代碼如下：

def get_all_province(content):
    tmp_data = content["data"]
    area_data = json.loads(tmp_data)["areaTree"]
    data = area_data[0]['children']

    province_list = []
    for province in data:
        name = province["name"]
        today_confirm = province["today"]["confirm"]
        now_confirm = province["total"]["nowConfirm"]
        total_confirm = province["total"]["confirm"]
        total_heal = province["total"]["heal"]
        province_list.append([name, today_confirm, now_confirm, total_confirm, total_heal])
    return province_list

結果如下：

4.3. 解析江蘇各地級市疫情情況

最后，我們獲取江蘇省各地級市的疫情數據,代碼如下：

def parse_jiangsu_province(content,key_province):
    tmp_data = content["data"]
    area_data = json.loads(tmp_data)["areaTree"]
    data = area_data[0]['children']

    city_list = []
    for province in data:
        name = province["name"]
        if name == key_province:
            children_list = province["children"]
            for children in children_list:
                city = children["name"]
                today_new = children["today"]["confirm"]
                now_confirm = children["total"]["nowConfirm"]
                total_confirm = children["total"]["confirm"]
                total_heal = children["total"]["heal"]
                city_list.append([city, today_new, now_confirm, total_confirm, total_heal])
    return city_list

結果如下：