好湿?好紧?好多水好爽自慰,久久久噜久噜久久综合,成人做爰A片免费看黄冈,机机对机机30分钟无遮挡

主頁 > 快速排名 > 常見問題 > 如何設計一個簡單的新聞聚合產品?

如何設計一個簡單的新聞聚合產品?

POST TIME:2018-12-03 21:29

 

如何設計一個簡單的新聞聚合產品?文章介紹了制作極簡的新聞聚合產品的7步驟,好奇的你和我一起來看看。

你知道在三四線的縣城,用戶在哪里看新聞么?不是在今日頭條里,而是在微信中的阿誰騰訊新聞里。這是我在安徽青陽做用戶調研時絕大多數給我的回答。這或許說明一點:用戶沒有像設計師那樣的潔癖,期望每一個app都有明確的界限。誰說不能在一個社交app里看新聞,我還要加一句,誰說不能在當地頭條(我正在負責的產品)里看全國頭條。說是這么說了,但是心里清楚這只是產品的外延,既然是外延就應該追求做產品的性價比,所以才有了這個極簡的新聞聚合產品。

先定個產品的小目標:通過全技術的方式,給用戶提供一個高頻更新的新聞列表,運營可進行微調干預。

整個過程7步完成,對,就是七步成詩那七步。

1.構建標簽庫

標簽庫其實就是詞條庫,詞條哪里來?或者換一個問法,互聯網上誰最懂中文?答案當然是百度咯。跑到百度百科首頁一看,我們要的東西就躺不才面的紅框里。

那我們還客氣啥,,爬呀,等等,1400萬是不是有點太多了?那我們就去掉一點吧,只留下名詞好了,這樣可以把詞庫控制在百萬量級。

2.抓取新聞

接下來,就是抓新聞,新聞哪里有,找門戶網站唄,公眾號app就算了,費時費力,爬PC站不是一樣的嘛,以體育為例,我們可以挑選新浪體育,搜狐體育,鳳凰體育,還有什么體育?你也看出來了其實我對體育無感,這里就假設有10個體育專題網站吧。

我們要抓的是熱門新聞,啥叫熱門,出現在第一屏的就是熱門,所以我們抓取的時候,只抓取首屏新聞。結果就是我有了一堆標題和鏈接,還有鏈接后面的正文。

3.建立新聞和標簽的關聯

現在到了建立新聞和標簽關聯的時候了,首先當然是要分詞,怎么分?呃,這個好像有很多自然語言詞庫的吧,你本身去找吧,分詞完了之后,計算各個詞的出現頻率,出現頻率越高說明它越可能是這篇文章的關鍵詞。出現在標題里的詞是不是比出現在正文里的詞更重要呢?所以你可以把標題里的詞加個N倍權重,N等于幾?關注我私信我就告訴你。

這里分出來的詞,其實就是標簽庫里的標簽。這樣每一篇文章就有一個對應的詞頻由高到低的標簽列表了,太長了也沒用,就取TOP5吧。

這里有個問題留給你,既然文章要分詞,文章分出來的詞直接做詞庫不就好了,為啥要去百度爬呢?答案還是要關注我私信我才告訴你。

4.標簽熱度排序

現在我們為體育頻道選擇了10個數據源(就是新浪體育這樣的網站),每個數據源下抓了50篇文章,每篇文章都有5個標簽,現在我們要看哪個標簽最熱了。我們的方式簡單得很,不然怎么說我們設計了一個極(jian)簡(lou)的產品呢,方法是如果一個標簽在一個數據源出現了,就加1,在10個數據源都出現了那就是10。通過這種方式你會得到每一個標簽的值,這個值除以數據源總數就是“熱度值”,在我們這里就是0.1到1之間的分布。

這個時候運營的妹子來亂入了,她說她的特長就是八卦,并且是先人一步的八卦,讓我們千萬要相信她判斷熱點的是否會大熱的能力。這句話的意思是:她想來人肉預先提升一個標簽的熱度值,雖然現在它還沒有大熱。嗯,平常關系辣么好,我不信也得做個姿勢選擇相信,于是就有了下面的線框。她可以調整一個標簽次的熱度值。

呀,最后怎么還有兩個詞連接在一起的?實際上多個詞比單個詞更接近于一個熱點事件。當然對于這種二元詞,計算方式和一元詞略有差別,細節此處不展開。

5.文章按頻道排好序

到這里我們已經有了標簽的熱度排序,那文章的熱度怎么算呢?文章不是有5個標簽嘛,阿誰最高熱度值標簽的熱度就是文章的熱度。

實際上熱度只是文章的一個維度,要給文章排序,你自然還會想到以下的幾個維度:

質量分:一篇結構完整、圖片豐富的文章顯然具有更高的質量時效分:越新的越優先,大家是來看新聞的嘛。

具體算法上可以用高斯衰減,好比72小時內基本無衰減,超過72小時后每過12小時就衰減一點。說到衰減,比來看了采銅的效益半衰期理論感覺頗為受用,大意是:一個人辦理本身日常的行為,可以考慮這個行為對本身長期受用程度來衡量,有些事情效益半衰期很長好比讀書和健身,就應該多做,別的一些事情效益半衰期很短好比游戲,就可以少做。

扯一扯防松一下,接回來說。

標簽:鹽城 林芝 東營 九江 烏魯木齊



收縮
  • 微信客服
  • 微信二維碼
  • 電話咨詢

  • 400-1100-266