好湿?好紧?好多水好爽自慰,久久久噜久噜久久综合,成人做爰A片免费看黄冈,机机对机机30分钟无遮挡

主頁 > 知識庫 > Python scrapy爬取起點中文網(wǎng)小說榜單

Python scrapy爬取起點中文網(wǎng)小說榜單

熱門標簽:騰訊地圖標注沒法顯示 地圖標注自己和別人標注區(qū)別 打電話機器人營銷 南陽打電話機器人 孝感營銷電話機器人效果怎么樣 海外網(wǎng)吧地圖標注注冊 商家地圖標注海報 聊城語音外呼系統(tǒng) ai電銷機器人的優(yōu)勢

一、項目需求

爬取排行榜小說的作者,書名,分類以及完結或連載

二、項目分析

目標url:“https://www.qidian.com/rank/hotsales?style=1page=1”

通過控制臺搜索發(fā)現(xiàn)相應信息均存在于html靜態(tài)網(wǎng)頁中,所以此次爬蟲難度較低。

通過控制臺觀察發(fā)現(xiàn),需要的內(nèi)容都在一個個li列表中,每一個列表代表一本書的內(nèi)容。

在li中找到所需的內(nèi)容

找到第兩頁的url
“https://www.qidian.com/rank/hotsales?style=1page=1”
“https://www.qidian.com/rank/hotsales?style=1page=2”
對比找到頁數(shù)變化
開始編寫scrapy程序。

三、程序編寫

創(chuàng)建項目太簡單,不說了

1.編寫item(數(shù)據(jù)存儲)

import scrapy

class QidianHotItem(scrapy.Item):
    name = scrapy.Field() #名稱
    author = scrapy.Field() #作者
    type = scrapy.Field() #類型
    form= scrapy.Field() #是否完載

2.編寫spider(數(shù)據(jù)抓取(核心代碼))

#coding:utf-8

from scrapy import Request
from scrapy.spiders import Spider
from ..items import QidianHotItem
#導入下需要的庫

class HotSalesSpider(Spider):#設置spider的類
    name = "hot" #爬蟲的名稱
    qidian_header={"user-agent":"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.93 Safari/537.36"} #設置header
    current_page = 1 #爬蟲起始頁
    def start_requests(self): #重寫第一次請求
        url="https://www.qidian.com/rank/hotsales?style=1page=1"
        yield Request(url,headers=self.qidian_header,callback=self.hot_parse)
		#Request發(fā)起鏈接請求
		#url:目標url
		#header:設置頭部(模擬瀏覽器)
		#callback:設置頁面抓起方式(空默認為parse)
    def hot_parse(self, response):#數(shù)據(jù)解析
        #xpath定位
        list_selector=response.xpath("http://div[@class='book-mid-info']")
        #獲取所有小說
        for one_selector in list_selector:
            #獲取小說信息
            name=one_selector.xpath("h4/a/text()").extract()[0]
            #獲取作者
            author=one_selector.xpath("p[1]/a[1]/text()").extract()[0]
            #獲取類型
            type=one_selector.xpath("p[1]/a[2]/text()").extract()[0]
            # 獲取形式
            form=one_selector.xpath("p[1]/span/text()").extract()[0]

            item = QidianHotItem()
            #生產(chǎn)存儲器,進行信息存儲
            item['name'] = name
            item['author'] = author
            item['type'] = type
            item['form'] = form

            yield item #送出信息

            # 獲取下一頁URL,并生成一個request請求
            self.current_page += 1
            if self.current_page = 10:#爬取前10頁
                next_url = "https://www.qidian.com/rank/hotsales?style=1page="+str(self.current_page)
                yield Request(url=next_url,headers=self.qidian_header,callback=self.hot_parse)


    def css_parse(self,response):
        #css定位
        list_selector = response.css("[class='book-mid-info']")
        for one_selector in list_selector:
            # 獲取小說信息
            name = one_selector.css("h4>a::text").extract()[0]
            # 獲取作者
            author = one_selector.css(".author a::text").extract()[0]
            # 獲取類型
            type = one_selector.css(".author a::text").extract()[1]
            # 獲取形式
            form = one_selector.css(".author span::text").extract()[0]
            # 定義字典

            item=QidianHotItem()
            item['name']=name
            item['author'] = author
            item['type'] = type
            item['form'] = form
            yield  item

3.start.py(代替命令行)

在爬蟲項目文件夾下創(chuàng)建start.py。

from scrapy import cmdline
#導入cmd命令窗口
cmdline.execute("scrapy crawl hot -o hot.csv" .split())
#運行爬蟲并生產(chǎn)csv文件

出現(xiàn)類似的過程代表爬取成功。

hot.csv

總結

本次爬蟲內(nèi)容還是十分簡單的因為只用了spider和item,這幾乎是所有scrapy都必須調(diào)用的文件,后期還會有middlewarse.py,pipelines.py,setting.py需要編寫和配置,以及從javascript和json中提取數(shù)據(jù),難度較大。

到此這篇關于Python scrapy爬取起點中文網(wǎng)小說榜單的文章就介紹到這了,更多相關Python爬取起點中文網(wǎng)內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家!

您可能感興趣的文章:
  • python 爬取國內(nèi)小說網(wǎng)站
  • Python爬蟲入門教程02之筆趣閣小說爬取
  • python 爬取小說并下載的示例
  • python爬取”頂點小說網(wǎng)“《純陽劍尊》的示例代碼
  • Python爬取365好書中小說代碼實例
  • Python實現(xiàn)的爬取小說爬蟲功能示例
  • python爬蟲之爬取筆趣閣小說升級版

標簽:聊城 牡丹江 揚州 迪慶 楊凌 南寧 撫州 六盤水

巨人網(wǎng)絡通訊聲明:本文標題《Python scrapy爬取起點中文網(wǎng)小說榜單》,本文關鍵詞  Python,scrapy,爬取,起點,中文網(wǎng),;如發(fā)現(xiàn)本文內(nèi)容存在版權問題,煩請?zhí)峁┫嚓P信息告之我們,我們將及時溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡,涉及言論、版權與本站無關。
  • 相關文章
  • 下面列出與本文章《Python scrapy爬取起點中文網(wǎng)小說榜單》相關的同類信息!
  • 本頁收集關于Python scrapy爬取起點中文網(wǎng)小說榜單的相關信息資訊供網(wǎng)民參考!
  • 推薦文章
    主站蜘蛛池模板: 久久美利坚| 亚洲色图影院| 97精品福利一区二区三区在线| 浪小辉Chinese男男Gay| 色老汉丁香网| mm美女视频在线观看免费 | 欧美日韩欧美日韩在线观看视频| 十八禁无码网站在线观看| 国产精品深爱在线| 日本免费一二区视频| 一区二区在线免费观看| 一女多男肉| 国产国际精品福利色噜噜| 美女脱了精光让男生摸动态图| 成都4片p免费观看视频| 看免费黄色大片| 国产乱码一二三四区的下载方式| 国产一级毛片无码AAAAAA看| 男生被男的玩失禁漫画| 草久久网| 国内精品综合九九久久精品| 刮伦真实情况| 国产亚洲精品久久久久久无几年桃| 美女一级特黄大片| 无限看片免费观看在线观看| 局长嗯轻一点嗯啊快一点| 亚洲qingse中文字幕久久| 久久综合九色综合97小说| 国产精品99久久久AV色戒| 成人免费网站视频ww| 日本性生活免费看| 国产欧美日韩不卡在线播放在线| 国内精品免费久久影院| 宿舍4攻1受把腿张开男男漫画| 国产三色电费2023免费吗| 国产亲妺妺乱的性视频在线观看| 亚洲高清视频免费| 西西人体www大胆高清视频| 日本学生偷尝禁果做爰| 久久久久久久精品动漫小说| 久久精品23|