日前,知識社交平臺知乎舉辦的 「2017知乎·看山杯機器學習挑戰賽」順利結束。該角逐從 8 月 15 日正式開始,一共為期 3 個月,大賽以語義分析應用為賽題,由創新工場人工智能工程院副院長王詠剛老師,東南大學計算機學院教授、博士生導師漆桂林教授、清華大學計算機系副教授黃民烈、知乎高級副總裁李大海擔任導師。角逐一共吸引了 919 支來自全球各個院校以及工業界的算法挑戰隊伍參與。8 月 30 日,知乎正式公布角逐結果,,最終來自北京郵電大學模式識別實驗室的 init 團隊成功奪魁。
據悉,知乎將于 9 月 2 日在北京總部舉辦頒獎禮,頒獎禮現場還會舉辦「基于人工智能的自然語言處理」主題沙龍。沙龍上,角逐導師將和知乎合伙人、高級副總裁李大海一起分享、討論當前人工智能及 NLP 領域的進展。

參賽選手亮點頻頻 角逐結果超預期
本次角逐一共設置 3 個獎項,其中一等獎 1 名,二等獎 2 名,三等獎 3 名。二等獎獲得者為北京郵電大學模式識別實驗室的 Koala 團隊、中國科學院計算機算研究所網絡數據重點實驗室的 YesOfCourse 團隊。
三等獎獲獎團隊則包孕:北京大學的 NLP Fakers 團隊,英國倫敦大學學院數據科學專業及武漢大學計算機學院的 Gower Street & 81 Road 團隊,北京郵電大學模式識別實驗室的 ye 團隊,北方交通大學和西安交通大學的 Yin & Bird 團隊。
這批算法江湖的語義分析高手不單可以獲得 80,000 元獎金,還有機會親自參與和改進知乎的內容理解技術,參與改善千萬知乎用戶的使用體驗 。
為了驗證結果,在獲獎隊伍提交其方法說明及可復現的代碼和模型數據后,評審委員會逐一評審獲獎隊伍的方法及代碼,而且隨機抽取其中一些隊伍提交的模型,使用別的一份驗證數據集進行結果驗證。通過對獲獎結果的復現,評審委員會發現,這些參賽隊伍提交的模型都表示出了非常強的泛化能力,在新的評審集上,模型的表示和原有的驗證集基本一致。
關于這次大賽的整體評價,評審委員會認為,“選手在角逐中會把一些最前沿的技術運用進來,或在比較復雜的模型上調整效果,在數據預處理、模型訓練、模型集成等環節都提出了新穎想法,非常有亮點,好比 init 團隊在數據增強方面進行了富有創意的工作, Koala 團隊在進行神經網絡訓練的時候,使用了逐層 boosting 的方法來提升單個神經網絡模型的表示?!?/p>
聚集自然語言處理喜好者 開放數據助力 AI 研究
知乎機器學習挑戰賽負責人張瑞曾體現,舉辦角逐的主要目的,一方面,是為了吸引大家對于機器學習,特別是自然語言理解(NLU)領域的興趣。并把機器學習喜好者聚集起來碰撞出一些思維的火花,同時參賽者也可以提升本身對自然語言處理領域的興趣和能力,相互雙贏。
另一方面,知乎也希望通過角逐開放部分數據,為 AI 在國內的發展提供一些助力。比擬國外的ImageNet、Gigaword 等高質量數據集,中文互聯網相關的高質量數據集是相對缺乏的。而作為中文互聯網最大的知識社交平臺,知乎累積了非常多的高質量文本語料和其他各種各樣的數據。
知乎接下來還將在開放數據方面做更多努力,后期會在知乎「知識青年」和「Hacker’s Log」等專欄繼續發布賽題對應的明文數據,以及一些與知乎密切相關的數據集和機器學習任務,例如內容保舉、社交網絡鏈接預測等數據集。所有數據集會經過嚴格脫敏和審核。
知乎機器學習愿景 滿足優質內容獲取需求
作為一款用戶體驗導向的產品,知乎上大量的人工智能,以及機器學習技術,歸根結底是了為支撐用戶的使用體驗。作為一家技術型互聯網公司,知乎對技術一直有著本身的想法和追求。知乎認為,算法更高價值的地方,在于算法有機會了解人的潛在需求,打破信息獲取障礙,提升學習效率。目前,知乎機器學習團隊已經搭建了一套基礎生態體系,通過算法實現了用戶畫像、內容分析、內容個性化推送等,其效率比過去的人工運營方式提高了數十倍。
未來,知乎希望通過機器學習和算法滿足用戶的閱讀興趣,進一步滿足關乎用戶自我提升的優質信息獲取需求。作為一個擁有 2300 萬日活用戶,每天有數以十萬計的高質量的 UGC 內容產生的網站。機器學習技術可以幫知乎做到的不只是「分發」內容,還能更深入地「理解」內容,從而幫手用戶更好地獲取有價值信息,帶來更好的內容瀏覽體驗。