建立網站的目標在于提高知名度與增加用戶流量。搜索引擎優化是增加網站流量的一種方法。另一種方法是使用網站地圖,它允許你指定一個搜索引擎收錄或索引哪些頁面。網站地圖這一概念最初由Google開發,最近雅虎與MSN也同意應用這一標準。本周我們對網站地圖標準進行說明
建立網站的目標在于提高知名度與增加用戶流量。搜索引擎優化是增加網站流量的一種方法。另一種方法是使用網站地圖,它允許你指定一個搜索引擎收錄或索引哪些頁面。網站地圖這一概念最初由Google開發,最近雅虎與MSN也同意應用這一標準。本周我們對網站地圖標準進行說明。
建立標準的需要
搜索引擎利用蜘蛛在互聯網上爬行,定位網頁并將它們收錄到數據庫中。這一過程需要大量資源,有時,你希望索引的網頁被忽略,而無用的網頁卻被收錄。在網絡上搜尋變化與新網頁,收錄它們并進行相應歸類的Google Googlebot蜘蛛就是一個典型的例子。
網站地圖為網站明確應索引哪些網頁,以及網站中增加了哪些新內容提供了一種方法。基本上,它在搜索引擎與網站間提供一個通信通道。理論上,它通過減少搜索引擎蜘蛛的處理對象來緩解資源負擔,但當前網站地圖不能代替爬行過程。
網站地圖簡介
網站地圖是一個XML文件,它包含一個網址URL表和相關的屬性,詳細說明應索引某個特定網站的哪些內容。網站地圖必須為UTF-8編碼。下面是網站地圖文件需要的XML元素:
urlset> -- 網站地圖文件以這個標簽起始和結束,起始標簽必須包括命名空間(xmlns)屬性。
url> -- 文件中的每一個網頁包含在這個元素之中。
loc> -- 文件中指定的網頁的實際地址。它是url>元素的一個子元素。
文件中還有下列可選元素:
lastmod> -- url>元素的一個子元素。它指定最近一次更新網頁的時間。
changefreq> -- url>元素的一個子元素。它指定網頁更新的頻率(經常、每小時、每天、每周、每月、每年及從未更新)。
priority> -- url>元素的一個子元素。它指定網站內網頁相對于其它網頁的重要性,有效值為0.0-1.0,默認值為0.5。
下面的網站地圖樣本說明如何在一個樣本網頁中應用這些元素。它為一個假定的網站指定主頁,以及它的更新頻率,上次更新的時間和網站中的優先權。
?xml version="1.0" encoding="UTF-8"?>
urlsetxmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
url>
loc>http://www.test.com//loc>
lastmod>2006-11-20/lastmod>
changefreq>daily/changefreq>
priority>0.3/priority>
/url>
/urlset>
網站地圖文件的位置由你自己決定,但它的位置決定了可能包含中文件中的URL集。例如,如果上面的樣本網站地圖文件位于http://www.test.com/sitemap.xml,那么網站地圖文件中可能包含任何以http://www.test.com/開頭的URL。因此,我們建議將網站地圖文件存放在網站的根目錄下。網站地圖文件的大小不得超過10MB。如果一個文件超出這個限制,就需要使用gzip進行壓縮。
建立一個網站地圖
既然網站地圖以XML為基礎,就可以方便的使用任何文本編輯器建立并編輯它們,不過也可以應用專門的工具。下面的列表提供了一些當前的工具:
Node Map:一個生成并確認網站地圖XML文件的工具。
Gsitemap:一個應用.NET Framework建立的網站地圖生成工具。
GSiteCrawler:一個生成網站地圖文件的Windows工具。
phpSitemapNG:一個用PHP編寫的免費網站地圖生成器。
Google Sitemap Generator:一個可以用于生成網站地圖文件的Python腳本。
通告搜索引擎
建立一個網站地圖文件后,應該將它提交給一個搜索引擎。每個搜索都擁有自己的網站地圖提交界面。Google的Webmaster工具集中包含了一個網站地圖提交頁面。在使用之前你必須注冊一個賬戶。雅虎也有一個免費的網站地圖提交頁面,但在使用之前同樣必須注冊一個賬戶。其它搜索引擎也會仿效Google、雅虎和MSN,提供相似的功能。
其它工具
搜索引擎收錄網頁的爬行過程緩慢而且需要大量資源。網站地圖為網站指定應收錄哪些內容而進行搜索提供了一種方法。它們建立像XML一樣的簡單文本格式文件,但有許多工具可以幫助你建立網站地圖文件。現在,它們只是對當前的處理過程進行補充。