為什么要禁抓自己的網頁呢?這似乎有點讓人不理解,因為對于自己的網站來說,顯然是讓百度搜查引擎抓取的越多就會越好,因為有著更多的機會揭露到互聯網上。可是事實上一個網站通常有很多的內頁不應該被百度抓取,因為這些網站頁面不僅不利于自身的優化,甚至還會帶來反作用。
那么通常哪些網站頁面不應該被百度抓取呢?比如網站內部存在著一定的重復性內容,比如一些遵照條件查詢獲得的結果頁面,這一點在很多商城類網站表示的異常突出,比如一個產品因為顏色、大小和型號的差異,就會出現很多種類似的頁面,這種頁面能夠對用戶來說具有一定的體驗度,可是對于搜查引擎,卻輕易因為提供的重復內容太多,而被懲處或者降權。
另外網站中還存在著很多注冊頁面、備份的頁面以及測試頁面等,這些頁面僅僅是為了讓用戶能夠更好的操作網站,以及自己對網站的操作管理。而這些頁面由于內容相對單調,并不適合百度對內容質量的要求,因此要盡可能的規避被百度收錄和抓取。下面就來具體談談如何規避百度抓取內容頁的方法。
第一,運用Flash技術來展現那些不想被百度收錄的內容
通過這種方法不僅能夠讓用戶獲得更好的用戶體驗,同時百度也不能夠抓取這些內容,從而實現更好的服務于用戶,同時也不會影響到自己的內容再百度中揭露。
第二,采用robots腳本技術來屏蔽相應的內容
目前搜查引擎行業協會規定了對于Robots描述的內容和鏈接賦予遏制抓取,因此對于網站上存在著隱私內容,以及管理頁面和測試頁面等內容,都可以設置到這個腳本文件中,這不僅能夠對本網站提供很好的維護,同時也能夠讓那些看起來是垃圾的內容,規避被百度抓取后,反而對本網站形成巨大的負面作用。
第三,使用nofollow屬性標簽來摒棄頁面中那些不想被收錄的內容
這種方法使用比較常見,而且能夠針對網頁中某一個區域或者一段文字進行屏蔽,從而提升自己網站內容的優化效果。采用這種技術只需要對需要屏蔽的內容將nofollow屬性設置為True,就能夠屏蔽這些內容。比如對于網站上存在著一些精彩的內容,可是這些內容還包括了錨文本鏈接,那么為了防范這些錨文本外鏈偷走本站的權重,就可以對這些錨文本鏈接設置nofollow屬性,這樣就能夠享受到這些內容帶給網站的流量,同時也能夠規避網站權重被分流的危急。
第四,使用Meta Noindex和follow標簽
使用這種方式既能夠實現防止被百度收錄,同時還能夠實現權重的傳遞,當然具體怎么操作還需要看站長們的須要,不過采用這種方式來屏蔽內容,往往會浪費百度蜘蛛的抓取時間,從而影響優化體驗,也就是說不到萬不得已時不需要采用這種模式。
對于有些站長采用的表單模式和Javascript技術來進行屏蔽,目前已經不能夠完成這項使命了,因為隨著百度蜘蛛智能化水平的提升,采用這些技術編篡的內容已經能夠被抓取,而且從不久的將來,Flash里面的內容一旦能夠被抓取,如果想要屏蔽網站內容,這個方法也要規避使用。謝謝閱讀,希望能幫到大家,請繼續關注腳本之家,我們會努力分享更多優秀的文章。