摘要:
隨著深度學習等技術的發展,人工智能應該會更加深入地與算法保舉相結合,技術會更為理智和人性化,進一步克服當前存在的缺陷,從而生產出真正優質的內容。
昨日,《人民日報》刊載了一篇題為《新聞莫被算法“綁架”》的文章。文章中指出,一些癡迷于技術算法的新聞客戶端愈發“簡單粗暴”。點開某篇文章之后,就會迅速被大量相似內容刷屏,而且無法拒絕。《人民日報》認為,媒體被算法、流量和點擊量綁架,而削弱了對新聞真實、全面、獨立等準則的堅守。
隨著人工智能的發展,算法保舉越來越成為了科技界乃至媒體圈推崇的技術手段。從長遠角度來看,算法保舉是技術與時代發展到必然程度所出現的一定現象。算法保舉在全球范圍內都已成為一種不成阻擋的趨勢,而且隨著時代的發展,算法保舉一定會成為未來內容領域的主流之一。
當然,在算法保舉發展的過程中,也不成制止地出現了一些問題。在《人民日報》的文章中,指出了算法保舉中存在的簡單粗暴、低質量等一系列缺陷。這些問題是確實存在的,也不該回避。雖然目前算法保舉非常火爆,但還需要更加理智和人性化。如果能提升技術水安然安祥樹立正確的態度,相信在未來,這些問題也是可以被克服的。
一、算法保舉種類頗多,應用領域愈發廣泛
算法保舉,就是利用用戶的一些行為,通過數學算法,推測出用戶可能喜歡的東西。保舉算法大致可以分為基于內容的保舉算法、協同過濾保舉算法和基于知識的保舉算法。

基于內容的保舉算法,是按照用戶的愛好和關注過的條目(Item)而進行保舉的。好比你看了《死神來了》第一部,那么基于內容的保舉算法就會發現這個電影的后四部和你之前不雅觀看的內容有很大的聯系,并加以保舉。
這種方法有效地制止了Item冷啟動的問題。所謂冷啟動,就是如果Item未被關注過,那么其他保舉算法就很少會去保舉。但基于內容的保舉算法則否則,它可以分析Item間的關系,從而實現保舉行為。
不過,這種方法也有毛病,就是Item有很大程度上的重復可能。好比你看了一則關于馬航的新聞,那么很多保舉就可能是你瀏覽過的,甚至是內容一致的新聞。此外,基于內容的保舉算法很難提取到如音樂、電影等多媒體內容的特征,因此很難進行保舉。而目前的解決措施是給這些Item人工打標簽,耗費成本較大,不太劃算。
協同過濾算法的原理是保舉興趣相似的用戶喜歡過的內容。好比你的伴侶喜歡《死神來了》,那么也會保舉給你,這便是最簡單的基于用戶的協同過濾算法。別的還有一種是基于Item的協同過濾算法。二者都是將用戶的全部數據讀入到內存中進行運算的。此方法訓練過程較長,但訓練完成后保舉過程快。
基于知識的保舉算法是通過構建領域本體或建立必然的規則進行保舉,也有將此方法歸為基于內容保舉中去的。
還有一種方法是混合保舉算法,即以加權或者串聯、并聯等方式對上述方法進行融合。
基于多種多樣的算法保舉,全球范圍內的新聞媒體開始逐漸使用這種方法向用戶推送新聞。
在這方面最早的應該是Facebook。2012年,Facebook在廣告領域開始應用定制化受眾功能,“受眾發現”這一概念得到了大規模應用。一年前,Facebook頒布頒發新的動態消息演算機制。這一計劃來自于對上千位用戶的調查,依據結果對算法進行改善。對此,Facebook發言人體現,閱讀時間比點贊更能反映興趣。

Facebook通過該項調查發現,以點贊、留言和分享為基礎的算法,并不足以代表哪些文章對使用者更有意義,好比人們不愛對嚴肅新聞或伴侶的哀痛消息進行點贊或留言。因此,將文章瀏覽時間納入貼文排名機制中,以推測使用者感興趣的文章類型。
在目前國內許多的資訊類網站中,也應用到算法保舉,揣度用戶感興趣的內容并向其進行推送。算法保舉不但可以被應用于新聞資訊方面,還可以應用于其他方面。
好比亞馬遜所使用的主流保舉算法,就是基于物品相似性和用戶瀏覽、喜歡、購買等數據的協同過濾保舉,,即用戶緯度和商品緯度。
由于不依賴用戶而基于商品的相似性,所以不會有冷啟動問題。但也因為不依賴用戶,所以比較死板,缺乏個性化保舉。這一算法廣為人知,但越是簡單的算法要達到好的效果就越難,特別是這種轉化率極低的算法。在國內,也有許多電商平臺在應用這種算法。好比“猜你喜歡”、“相似保舉”等功能,就是這種算法的具體表現。