国产视频一区在线,成人在色线视频在线观看免费社区,撕开她的乳罩慢慢揉捏动漫

主頁 > 知識庫 > Python爬蟲基礎之初次使用scrapy爬蟲實例

Python爬蟲基礎之初次使用scrapy爬蟲實例

項目需求

在專門供爬蟲初學者訓練爬蟲技術的網站（http://quotes.toscrape.com)上爬取名言警句。

創建項目

在開始爬取之前，必須創建一個新的Scrapy項目。進入您打算存儲代碼的目錄中，運行下列命令:

(base) λ scrapy startproject quotes
New scrapy project 'quotes '， using template directory 'd: \anaconda3\lib\site-packages\scrapy\temp1ates\project ', created in:
    D:\XXX
You can start your first spider with :
    cd quotes
    scrapy genspider example example. com

首先切換到新建的爬蟲項目目錄下，也就是/quotes目錄下。然后執行創建爬蟲文件的命令:

D:\XXX(master)
(base) λ cd quotes\

  
D:\XXX\quotes (master)
(base) λ scrapy genspider quotes quotes.com
cannot create a spider with the same name as your project
 
D :\XXX\quotes (master)
(base) λ scrapy genspider quote quotes.com
created spider 'quote' using template 'basic' in module:quotes.spiders.quote

該命令將會創建包含下列內容的quotes目錄:

robots.txt

robots協議也叫robots.txt(統一小寫）是一種存放于網站根目錄下的ASCII編碼的文本文件，它通常告訴網絡搜索引擎的網絡蜘蛛，此網站中的哪些內容是不應被搜索引擎的爬蟲獲取的，哪些是可以被爬蟲獲取的。

robots協議并不是一個規范，而只是約定俗成的。

#filename : settings.py
#obey robots.txt rules
ROBOTSTXT__OBEY = False

分析頁面

編寫爬蟲程序之前，首先需要對待爬取的頁面進行分析，主流的瀏覽器中都帶有分析頁面的工具或插件，這里我們選用Chrome瀏覽器的開發者工具(Tools→Developer tools）分析頁面。

數據信息

在Chrome瀏覽器中打開頁面http://lquotes.toscrape.com，然后選擇"Elements"，查看其HTML代碼。

可以看到每一個標簽都包裹在

編寫spider

分析完頁面后，接下來編寫爬蟲。在Scrapy中編寫一個爬蟲，在scrapy.Spider中編寫代碼Spider是用戶編寫用于從單個網站(或者-些網站)爬取數據的類。

其包含了-個用于下載的初始URL,如何跟進網頁中的鏈接以及如何分析頁面中的內容，提取生成item的方法。

為了創建一個Spider, 您必須繼承scrapy.Spider類，且定義以下三個屬性:

name:用于區別Spider。該名字必須是唯一-的, 您不可以為不同的Spider設定相同的名字。
start _urls:包含了Spider在啟動時進行爬取的ur列表。因此，第一個被獲取到的頁面將是其中之一。后續的URL則從初始的URL獲取到的數據中提取。
parse():是spider的一一個方法。被調用時，每個初始URL完成下載后生成的Response對象將會作為唯一的參數傳遞給該函數。該方法負責解析返回的數據(response data),提取數據(生成item)以及生成需要進一步處理的URL 的Request對象。

import scrapy
 
class QuoteSpi der(scrapy . Spider):
    name ='quote'
    allowed_ domains = [' quotes. com ']
    start_ urls = ['http://quotes . toscrape . com/']
    
    def parse(self， response) :
        pass

下面對quote的實現做簡單說明。

scrapy.spider :爬蟲基類，每個其他的spider必須繼承自該類(包括Scrapy自帶的其他spider以及您自己編寫的spider)。
name是爬蟲的名字，是在genspider的時候指定的。
allowed_domains是爬蟲能抓取的域名，爬蟲只能在這個域名下抓取網頁，可以不寫。
start_ur1s是Scrapy抓取的網站，是可迭代類型，當然如果有多個網頁，列表中寫入多個網址即可，常用列表推導式的形式。
parse稱為回調函數，該方法中的response就是start_urls 網址發出請求后得到的響應。當然也可以指定其他函數來接收響應。一個頁面解析函數通常需要完成以下兩個任務:

1.提取頁面中的數據(re、XPath、CSS選擇器)
2.提取頁面中的鏈接，并產生對鏈接頁面的下載請求。
頁面解析函數通常被實現成一個生成器函數，每一項從頁面中提取的數據以及每一個對鏈接頁面的下載請求都由yield語句提交給Scrapy引擎。

解析數據

import scrapy
 
def parse(se1f，response) :
    quotes = response.css('.quote ')
    for quote in quotes:
        text = quote.css( '.text: :text ' ).extract_first()
        auth = quote.css( '.author : :text ' ).extract_first()
        tages = quote.css('.tags a: :text' ).extract()
        yield dict(text=text，auth=auth，tages=tages)

重點：

response.css(直接使用css語法即可提取響應中的數據。
start_ur1s 中可以寫多個網址，以列表格式分割開即可。
extract()是提取css對象中的數據，提取出來以后是列表，否則是個對象。并且對于
extract_first()是提取第一個

運行爬蟲

在/quotes目錄下運行scrapycrawlquotes即可運行爬蟲項目。
運行爬蟲之后發生了什么?

Scrapy為Spider的start_urls屬性中的每個URL創建了scrapy.Request對象，并將parse方法作為回調函數(callback)賦值給了Request。

Request對象經過調度，執行生成scrapy.http.Response對象并送回給spider parse()方法進行處理。

完成代碼后，運行爬蟲爬取數據，在shell中執行scrapy crawl SPIDER_NAME>命令運行爬蟲'quote',并將爬取的數據存儲到csv文件中:

(base) λ scrapy craw1 quote -o quotes.csv
2021-06-19 20:48:44 [scrapy.utils.log] INF0: Scrapy 1.8.0 started (bot: quotes)

等待爬蟲運行結束后，就會在當前目錄下生成一個quotes.csv的文件，里面的數據已csv格式存放。

-o支持保存為多種格式。保存方式也非常簡單，只要給上文件的后綴名就可以了。(csv、json、pickle等)

到此這篇關于Python爬蟲基礎之初次使用scrapy爬蟲實例的文章就介紹到這了,更多相關Python scrapy框架內容請搜索腳本之家以前的文章或繼續瀏覽下面的相關文章希望大家以后多多支持腳本之家！

您可能感興趣的文章:

Python爬蟲框架-scrapy的使用
python scrapy項目下spiders內多個爬蟲同時運行的實現
python爬蟲scrapy基本使用超詳細教程
在python3.9下如何安裝scrapy的方法
python實現scrapy爬蟲每天定時抓取數據的示例代碼
python Scrapy爬蟲框架的使用

標簽：宜昌上饒珠海盤錦西寧湖北潮州佳木斯

巨人網絡通訊聲明：本文標題《Python爬蟲基礎之初次使用scrapy爬蟲實例》，本文關鍵詞 Python,爬蟲,基礎,之,初次,；如發現本文內容存在版權問題，煩請提供相關信息告之我們，我們將及時溝通與處理。本站內容系統采集于網絡，涉及言論、版權與本站無關。

下面列出與本文章《Python爬蟲基礎之初次使用scrapy爬蟲實例》相關的同類信息！

Python爬蟲基礎之初次使用scrapy爬蟲實例

項目需求在專門供爬蟲初學者訓練爬蟲技術的網站（http://quotes.toscrape.com)上爬取名言警句。創建項目在開始爬取之前，必須創建一個新的Scrapy項目。進入您打算存儲代碼的目錄中，運...

10-18

浦發銀行電話機器人（浦發銀行財智機器人）

本文目錄一覽： 1、浦發95528為什么轉不了人工2、電話機器人最近很火，那么它到底有什么用？3、為什么上海浦發銀行給我打...

11-27

徐州電話機器人怎么樣用（徐州機器人教育機構）

本文目錄一覽： 1、電話機器人怎樣操作？操作難嗎？2、電話機器人怎樣用？3、智能電話機器人,怎樣正確的運用?電話機器人...

11-28

關于泉州回撥外呼系統哪家強的信息

今天給各位分享泉州回撥外呼系統哪家強的知識，其中也會對進行解釋，如果能碰巧解決你現在面臨的問題，別忘了關注本站...

02-06

企業電銷機器人軟件（企業電銷機器人軟件有哪些）

本篇文章給咱們談談企業電銷機器人軟件，以及企業電銷機器人軟件有哪些對應的常識點，期望對各位有所協助，不要忘了保...

05-17

固網寬帶新生意經：網絡電話運營商“捆綁”互

寬帶，絕對是一門好生意！隨著馬路修的越來越寬，包括電信運營商、互聯網企業等產業鏈上的每個陣營都希望在這條黃金馬...

01-16

【注冊400電話】常見的三個問題與解答

現在正規的企業的服務熱線一般是400電話，特別是對于初創企業來說，越早辦理，就能享受到400電話帶來的長期收益，但注冊...

05-09

湖南電銷外呼系統怎么樣（電銷外呼軟件手機版）

本文目錄一覽： 1、電銷客外呼體系這個體系好用么？2、外呼體系怎么樣？3、主動外呼體系好用嗎？電銷客外呼體系這個體...

04-23

申請400電話之前需要考慮哪些因素

申請400電話之前，我們應該正確的做好各個方面的了解，申請400電話要知道公司是否有這方面的需求。雖然是正規的公司電話...

05-15

400的電話怎樣辦理(400電話怎么申請流程)

400的電話怎樣辦理(400電話怎么申請流程) 400電話怎么申請流程辦理申請公司400電話的步驟如下： 1. 登陸電信運營商官網：在...

08-14

長春抗封號防封號公司-終于知道

長春抗封號防封號公司好的話術源自于對智能電銷機器人邏輯的樹立，尤其是對機器人問題庫的樹立和設置等，決議了機器人...

01-15

貴州高頻電銷卡售后有保障（電銷高頻電話卡）

本文目錄一覽：1、電銷卡有售后嗎?2、電銷卡有哪些優勢?3、電銷卡真的無限制高頻嗎?4、電銷卡哪家費用和服務比較好,能推...

07-10

隆之源智能外呼系統（ai智能語音外呼系統）

本文目錄一覽： 1、什么是智能外呼營銷系統？求詳細解答2、什么是智能外呼？3、自動外呼系統是什么，使用自動外呼營銷...

11-27

為什么在MySQL中不建議使用UTF-8

最近我遇到了一個 bug，我試著通過 Rails 在以“utf8”編碼的 MariaDB 中保存一個 UTF-8 字符串，然后出現了一個離奇的錯誤： ...

10-18

為什么要建設呼叫中心?您需要的解決方案

1.什么是呼叫中心 1.1呼叫中心（Call Center），又稱客戶服務中心，是指綜合利用先進的通信及計算機技術，對信息和物資流程...

10-22

Java數據庫編程中的技巧

1、java數據庫操作基本流程 2、幾個常用的重要技巧：可滾動、更新的記錄集批量更新事務處理 java數據庫操作基本流程：取...

10-18

400電話在哪里申請辦理流程詳解

400電話在哪里申請辦理流程詳解隨著科技的發展和企業的不斷擴張，越來越多的企業開始使用400電話服務。而很多人對于如...

08-14

嘉興知識產權電話銷售系統在哪可以辦理,群呼系統如何辦理-優質服務！

嘉興知識產權電話銷售系統在哪可以辦理,群呼系統如何辦理例如，在夜間休息時間不可能停止外呼。在中國的研發、機器人...

12-16

臺州不封號電銷卡好用嗎

臺州不封號電銷卡好用嗎現在的房產行業競爭壓力也是非常大的，因為現在市面上有很多中介公司，比如：貝殼找房，美滿...

12-15

騰訊地圖怎么添加公司名稱地址？騰訊地圖添加公司名稱和地址

騰訊地圖怎么添加商家地址？現在出行導航都少不了標注，標注地址的信息準確性直接影響到查找的效率，常用地圖地位就...

11-26

聰慧的電銷公司都是用智能語音機器人了！

2017年，深度學習大熱，人工智能迎來了從科學到技術，從技術到運用，從運用再到產業化的飛速發展勢態；推動了AI技術與產...

01-13

蘇州ai電銷機器人排名(ai電銷機器人的市場哪里找)

昨天，在美國加州圣芭芭拉舉辦的創新峰會（The Innovation Summit）上，CB Insight 的CEO Anand Sanwal 揭曉蘇州ai電銷機器人排名了全球...

11-29

IDC稱薩蒂揚財務丑聞或致印度外包失去優勢

新浪科技訊 2月2日下午消息，針對印度第三大IT及業務流程外包服務商薩蒂揚(Satyam)爆發的財務丑聞，IDC亞太區服務研究總監...

10-22

SQL Server代理：理解SQL代理錯誤日志處理方法

SQL Server代理是所有實時數據庫的核心。代理有很多不明顯的用法，因此系統的知識，對于開發人員還是DBA都是有用的。這系...

10-18

商標權產生及取得制度變遷競爭政策內涵分析

實用主義財產理論認為,包括財產法在內的法律的目的是為了實現最多數人的福利,將這一理論運用于商標法中,可解釋為商標權...

10-23

客戶管理系統的功能

企業與客戶關系的處理大部分在于銷售管理，CRM 外呼系統能夠多維度進行銷售過程管理。八駿CRM系統中的公海池制度、客戶...

10-26

《那年花開月正圓》即將開播，騰訊視頻攜手沙發管家搶先看

由著名導演丁黑執導，孫儷、陳曉、何潤東、胡杏兒等主演的講述陜商傳奇故事的大劇《那年花開月正圓》將于騰訊視頻TV版...

10-16

400電話要從哪些方面完善自己

在做事情的時候就要找到適合的方式和途徑，只有當你自己找到了這個方向之后，無論是發展還是其他的方面都會真正有保障...

05-15

每年失蹤兒童數據驚人，誰來管？這個創始人出一招，他說要管到底

神兔俠創始人李安前幾天在網上看到一篇文章，文中提到，中國每年的失蹤兒童不完全統計有20萬，找回來的大概只占到...

10-16

抖音代運營有哪些抖音賺錢引流的方法？為什么企業要選擇抖音代運營？

03-01

任城區智能外呼系統（任城區智能外呼系統招聘）

本文目錄一覽： 1、什么是智能外呼？2、什么是智能外呼營銷系統？求詳細解答3、自動外呼系統是什么4、自動外呼系統是什...

本篇文章給大家談談蘭州人工外呼系統哪家強，以及甘肅外呼系統對應的知識點，希望對各位有所幫助，不要忘了收藏本站喔...

11-06

PyTorch 多GPU下模型的保存與加載(踩坑筆記)

這幾天在一機多卡的環境下，用pytorch訓練模型，遇到很多問題。現總結一個實用的做實驗方式：多GPU下訓練，創建模型代碼...

10-18

物聯卡怎么開通（物聯卡怎么開通流量業務）

物聯網卡是三大運營商為公司機器設備連接網絡所發布的一種上網卡，僅有數據信息連接網絡作用，不可以打電話和發短信，...

11-07

所有地圖上都沒有我的店鋪，為什么我的地圖都沒有定位？

如何在所有地圖上標注我的店鋪？ https://www.51dongshi.com/ebedfreeehh.html【摘要】如何在所有地圖上標注我的店鋪？【提問】 ht...

10-08

什么是400電話號碼(400電話好不好)

400電話套餐價格_400電話收費標準_400電話是否免費_優音通信 400電話號碼是一個10位數字的虛擬號碼，針對企事業單位辦理的，...

11-07

為英國公司注冊中國商標的4個步驟

為英國企業注冊中國商標所需的4個步驟：首先在英國提交雇用中國的商標律師提交商標申請（通過商標局或《馬德里議定...

10-23

如何延長電銷卡的使用時間?

電銷卡雖然有高頻防封機制，但也不是絕對不會被封號的，高頻呼出或被投訴就會被封號，可能導致電銷卡無法再使用。那么...

10-13

電話機器人常用話術（機器人話術通用的）

本篇文章給大家談談電話機器人常用話術，以及機器人話術通用的對應的知識點，希望對各位有所幫助，不要忘了收藏本站喔...

11-06

廣西桂林局電訪呼叫中心全面升級受好評

煙草在線據BPO行業資訊網報道廣西桂林煙草是繼08年底廣西柳州煙草呼叫中心全面升級試運營，取得重大成功后的全區13地市...

10-22

云南國際轉觀念推進電力營銷

2015年03月19日訊為了更好地適應電力營銷形勢的變化，近日，云南國際成立營銷工作領導小組，安排做好今年的電力營銷工作...

10-19

電銷團隊外包第三方公司（電銷外包服務）

本文目錄一覽： 1、電話銷售客服外包公司,這個求告知2、濟南金融外包電銷公司有哪些3、電話銷售外包也可以外包嗎？？...

04-22

西藏外呼系統哪家不錯（西藏電話）

今天給各位分享西藏外呼系統哪家不錯的知識，其中也會對西藏電話進行解釋，如果能碰巧解決你現在面臨的問題，別忘了關...

05-17

無錫教育電話營銷線路價格,電話系統辦理-熱點

無錫教育電話營銷線路價格,電話系統辦理傳統行業展開中心就是樹立商品品牌效應，找到合適的。現在的電銷機器人的識別...

12-17

深圳穩定電話系統供應商,群呼線路怎么辦理-意味深長!

深圳穩定電話系統供應商,群呼線路怎么辦理機器人轉人工無感知切換??AI加持快速鎖定目標客戶??智能對話??式群呼，...

12-16

我國共存協議下建立商標共存機制和監管建議

雖然我國已有商標共存協議判例，但《商標法》中對于商標共存、商標共存協議及其機制均還處于空白。為有效促進商標共存...

10-23

寧波聯通群呼防封代理商-誠信經營

寧波聯通群呼防封代理商然后直接把那些客戶的信息反映到員工。這樣一來就等于已經預先的排除掉了一批無意向的客戶，還...

01-15

電話機器人首選門薩維（電話機器人廠家）

本文目錄一覽：1、新卓越電話營銷機器人怎么樣?2、電話機器人效果好嗎?3、什么是智能電話機器人新卓越電話營銷機器人怎...

06-20

ip對講系統方案-ip網絡對講系統解決方案-巨☉人☉網☉絡通信

ip對講系統方案，是一種融合通信解決方案，可以實現語音對講、尋呼、廣播、調度等功能，廣泛應用于醫療、學校、高速公...

12-14

400電話申請都有哪些途徑，有什么區別嗎？

400電話作為主被叫共同承擔資費的電話業務，常被企業申請用來作為服務咨詢電話或者售后服務電話，那么有哪些途徑可以進...

04-03

Python爬蟲基礎之初次使用scrapy爬蟲實例

10-18

本頁收集關于Python爬蟲基礎之初次使用scrapy爬蟲實例的相關信息資訊供網民參考！

推薦文章

上一篇：Python上下文管理器Content Manager

下一篇：Python爬蟲基礎之簡單說一下scrapy的框架結構

一起分享吧

好湿?好紧?好多水好爽自慰,久久久噜久噜久久综合,成人做爰A片免费看黄冈,机机对机机30分钟无遮挡

Python爬蟲基礎之初次使用scrapy爬蟲實例

項目需求

創建項目

robots.txt

分析頁面

數據信息

編寫spider

解析數據

運行爬蟲