你把IIS日志從空間下到本地,然后用文本工具打開;
2010-05-14 15:52:03 W3SVC1 121。187。5。143 GET /category-8-b0-min1100-max2200.html - 80 - 220.181.7.74 Baiduspider+(+baidu/search/spider.htm) 200 0 0
分析下 200 0 0組成部分 sc-status(協議狀態) sc-substatus(協議子狀態) sc-win32-status(Win32狀態碼)
sc-status(協議狀態): 200 連接成功
sc-substatus(協議子狀態) :0 成功
sc-win32-status(Win32狀態碼):0 代表抓取成功并帶回數據庫 ; 64 指定的網絡名不再可用
1: 在這個訪問記錄里面121.187.5.143是你服務器的IP地址,220.181.7.74 是bd蜘蛛的IP,/category-8-b0-min1100-max2200.html 為蜘蛛訪問你的頁面 80是端口 GET是打開方式 W3SVC1是記錄的文件夾,這里說明,bd蜘蛛已經訪問了你的category-8-b0- min1100-max2200.html 這個頁面,那么最重要的是最后面的這個參數200 0 0。
2、200 0 0 成功訪問該頁面,0代表抓取成功并帶回數據庫。這個時候你就放心了,這個頁面已經被bd收錄,但是還沒有釋放出來,bd更新時就可能釋放出來。
3:200 0 64 網絡上流傳著這么三種解釋第一:64為K站的前兆。第二64的出現只是64位操作系統。第三:網絡不可達,由于某種原因無法完全打開頁面,或者網絡不穩定這些原因,導致蜘蛛無法帶回頁面或者說不抓取該頁面,所以200 0 64的解釋也應該為:訪問了該頁面,但并沒有任何抓取也沒有帶回數據庫。這種原因多為空間不穩定、服務器不穩定。
4:304 0 0這個返回碼代表蜘蛛訪問的頁面沒有更新,和他之前來的時候是一樣的,所以看到這個不要擔心,蜘蛛來過,只不過你沒有更新,所以他也不愿意帶走這個頁面。
5:404 0 0這個是代表404頁面,但是有個很嚴重的問題,這個返回碼告訴我們,蜘蛛來到了404頁面并把他帶走了,崩潰~~~~,要是這樣的話基本上你要倒霉了,要你有太多的404,那么蜘蛛就會不斷是抓取,不斷的帶走,這樣會造成無數的重復頁面,最終導致K站或者降權,正確的返回罵是404 0 64 這就代表蜘蛛沒有抓取你這個頁面。
6:500錯誤500錯誤是服務器內部錯誤,是由程序的錯誤造成的,我不懂程序,但是500錯誤是會給你減分的,這點基本的邏輯都可以想的到,要發現500錯誤,馬上查看是哪個頁面的,然后去修正以下錯誤吧!
7:302要在日志中發現302的返回碼也是需要注意的,302為臨時重定向,要你是長期的將這個頁面重定向到另一個頁面,麻煩你使用301永久重定向,要是302的話bd蜘蛛下次來還會訪問這個頁面,這樣又會造成復制大量頁面的問題,結果肯定是K,所以,抽空檢查以下。
陳中平的回復:
每個網絡蜘蛛都有自己的名字,在抓取網頁的時候,都會向網站標明自己的身份。網絡蜘蛛在抓取網頁的時候會發送一個請求,這個請求中就有一個字段為User-agent,用于標識此網絡蜘蛛的身份。例如Google網絡蜘蛛的標識為GoogleBot,Baidu網絡蜘蛛的標識為BaiDuSpider,Yahoo網絡蜘蛛的標識為Inktomi Slurp。如果在網站上有訪問日志記錄,網站管理員就能知道,哪些搜索引擎的網絡蜘蛛過來過,什么時候過來的,以及讀了多少數據等等。
通過ftp,查看到后臺有一個包含“log”的文件。這個文件就是日志。通過查看日志中是否有baiduspider的腳印。有baiduspider就說明bd蜘蛛來過網站。
小刀SEO 的回復:
網站日志一般存放在虛擬主機的logfiles文件夾下,可以通過FTP工具將網站日志下載下來,通過txt文檔方式查看。