關(guān)于信噪比的定義,網(wǎng)上廣泛流傳的定義是:指網(wǎng)頁中的文本內(nèi)容部分與生成這些文本而產(chǎn)生的html標(biāo)簽內(nèi)容的比率;小鵬認為應(yīng)該更廣義的理解是:網(wǎng)頁中的文本以及各種因素(包括圖片,flssh,css等鏈接 )和網(wǎng)頁html標(biāo)簽內(nèi)容的比率.
關(guān)于信噪比的定義,網(wǎng)上廣泛流傳的定義是:指網(wǎng)頁中的文本內(nèi)容部分與生成這些文本而產(chǎn)生的html標(biāo)簽內(nèi)容的比率;小鵬認為應(yīng)該更廣義的理解是:網(wǎng)頁中的文本以及各種因素(包括圖片,flssh,css等鏈接 )和網(wǎng)頁html標(biāo)簽內(nèi)容的比率.
那么針對上面這兩種定義,我還是認為非常的不恰當(dāng),沒有抓住本質(zhì)的東西.不管是聲學(xué)方面對于信噪比的定義還是數(shù)據(jù)通信領(lǐng)域里的信噪比,在定義概念的時候,都強調(diào)了有用信息跟干擾信息之間的比較.比如數(shù)據(jù)通信領(lǐng)域?qū)τ谛旁氡?S/N)的定義就是信息與噪聲之比。那么類比到搜索引擎檢索領(lǐng)域,網(wǎng)頁內(nèi)容信噪比的定義應(yīng)該依然是網(wǎng)頁有用信息跟干擾信息之比。
以有用信息跟干擾信息之比這種定義來看,之前提到的兩種定義,都認為網(wǎng)頁中的文本(或加上其他因素如包括圖片,flssh,css等)成了有用信息,而產(chǎn)生的html標(biāo)簽內(nèi)容減去這些有用信息的為垃圾信息。這顯然太過于牽強。難道搜索引擎能識別的文本信息就一定是有用信息???而之外的其他信息就是干擾信息?
所以理解信噪比的關(guān)鍵就在于什么是有用信息,什么是干擾信息。
而對于這一點,我理解的是:搜索引擎對于其所抓取的內(nèi)容會有一個基本的判斷,判斷該頁面內(nèi)容對應(yīng)的主題及所有可能的關(guān)鍵詞并將其進行排序。是否為有用信息和無用信息,對于搜索引擎來說,是針對具體關(guān)鍵詞而言的。所以網(wǎng)頁的信噪比跟具體某一關(guān)鍵詞的信噪比應(yīng)該有所區(qū)分。具體關(guān)鍵字的信噪比是網(wǎng)頁中對該關(guān)鍵字檢索有利的信息和干擾信息之比。而網(wǎng)頁的信噪比為該頁面核心關(guān)鍵字的信噪比。
網(wǎng)頁中如果存在搜索引擎認為與某一搜索詞沒有任何相關(guān)性的內(nèi)容(即搜索引擎無法判斷該段內(nèi)容與搜索關(guān)鍵詞之間的關(guān)系),那么這些內(nèi)容既為該關(guān)鍵詞的干擾信息。這些干擾信息可能包括flash,圖片,及與關(guān)鍵詞沒有相關(guān)、卻十分冗長的段落文本等。同理,網(wǎng)頁的干擾信息即為網(wǎng)頁核心關(guān)鍵詞的干擾信息。
對于flash,圖片,js等搜索引擎不能識別的東西來說,對于任何關(guān)鍵詞都被列入了干擾信息。而且,對于文字內(nèi)容比較多的站點來說,信噪比跟關(guān)鍵詞密度的概念比較接近。至于具體的html的代碼語句符號,我覺得對于搜索引擎來說,其對于網(wǎng)站排名的影響,更多是影響了網(wǎng)站代碼的合理和正確性,影響了網(wǎng)站的訪問速度。而不是被搜索引擎列為干擾信息,影響排名的。所以,我也可以預(yù)言,如果多余的代碼不是太過分,導(dǎo)致網(wǎng)頁出錯或不符合某些標(biāo)準(zhǔn)或使得網(wǎng)頁文件太大。對排名的影響幾乎是可以不考慮的。一般情況下,搜索引擎都直接忽略了這些代碼符號語句,也從來沒有在哪個搜索引擎的搜索結(jié)果中看到html里面的那些語句定義符號出現(xiàn)過。
上面所討論的信噪比概念,體現(xiàn)在具體搜索引擎優(yōu)化操作中,就是需重視網(wǎng)頁核心關(guān)鍵詞的信噪比,而不可能考慮所有可能關(guān)鍵詞的信噪比。對于一個比較合理的站點來說,搜索引擎可以通過網(wǎng)站的Title,Meta等去識別網(wǎng)頁的核心主題,那么網(wǎng)頁的段落中出現(xiàn)與Title和Meta相呼應(yīng)的內(nèi)容就非常重要,這些內(nèi)容可能會列為有用信息,那么其他的一些信息,雖然也是文本,但如果冗長而與標(biāo)題Meta不相關(guān),就應(yīng)該果斷舍棄,或使其相關(guān)。不然則直接增加了網(wǎng)站核心關(guān)鍵詞的信噪比。
還有一個需要注意的是,設(shè)計網(wǎng)頁需要考慮如何讓搜索引擎識別核心關(guān)鍵詞和主題。如果搜索引擎連主題都很難理解,那么談網(wǎng)頁信噪比也沒有意義。具體如何讓搜索引擎識別核心關(guān)鍵詞和主題,則是另一個話題,擇日再論。 當(dāng)然本文的想法嘗未經(jīng)實踐證明,提出來引導(dǎo)大家思考而已。