由機器之心主辦的全球機器智能峰會( GMIS 2017 )在北京正式啟幕。第四范式創始人、首席執行官戴文淵, LSTM 之父 Jurgen
Schmidhuber
,前微軟人工智能首席科學家鄧力,今日頭條副總裁馬維英等人工智能領袖受邀出席了開幕當天的主論壇、并頒發主題演講。作為人工智能工業應用的代表,戴文淵在此次大會上針對人工智能如安在工業界應用進行了關鍵性說明。

戴文淵認為,盡管組織核心的競爭模式已經從流量為王的互聯網模式升級到了生產、運營效率貢獻模式,輿論集體投奔人工智能,但人工智能目前尚未在工業界全面落地。這是因為企業構建商用人工智能須五大核心要素,即Big
data(大數據)、Response(持續的反饋)、 Algorithm (算法)、 Infrastructure (計算資源)和 Needs
(明確的需求),他將其概括為 “BRAIN” 。戴文淵建議企業采取 “ 專業化分工 + 專注核心環節 ”
的方式,充分借力人工智能平臺,關注數據自己及業務需求,更加高效通過智能決策引擎讓數據發揮價值。

Big Data ——有意義的過程數據
大數據是人工智能存在的基石。多來源、多類型的大數據可以從差別角度進行迫近真實的描述,而利用算法可以挖掘數據之間的多層次關聯關系。針對數據,戴文淵提出真正能夠產生人工智能的是過程數據(同“用戶行為數據”)。
戴文淵提到,過去的互聯網紅利期雖然行業中有海量數據涌入,但大量的數據沒有標和明確的定義,數據清洗及標簽化難度相當高。他舉例到,“統計局公布的各地區
PM2.5 統計數據并不能讓我們產生預測 PM2.5 的能力,人工智能需要基于具體行為來掌握情況、學會技能。例如近期較受關注的智能投顧(
Robo-Advisor ),就是讓機器先學習投資經理們是如何進行投顧的行為數據,才能利用機器進行智能投顧。”
安身于行業應用視角,戴文淵指出,根據當下技術發展,一個優秀的人工智能模型需要一千萬以上的數據樣本。因此,在數據方面,企業需加強對用戶每一個行為及其結果的記錄意識。以在線廣告為例,用戶的搜索行為、廣告內容及用戶是否有點擊行為等,都需要加以記錄,最終形成滲透至每一個場景、每一臺設備和每一種辦事里的數據采集機制。
Response ——數字化的持續反饋
用戶行為數據是機器學習的基礎,如果想讓機器學到最新的、即時的用戶行為,戴文淵認為,能夠形成持續的反饋閉環的人工智能系統是機器智能提升的前提。機器需要通過正、負反饋來不停學習、不停進步。以
AlphaGo 為例, AlphaGo
的自我博弈就是不停收集落棋結果的反饋,然后不停地更新本身的策略,經過無數次博弈與反饋,輸出一個最優的行為策略。戴文淵體現,當下越來越多的新聞聚合平臺開始轉型為基于人工智能技術的個性化保舉平臺,這在過去數據不足的情況下是很難實現的,素質上是因為當前各新聞平臺都開始記錄并積累用戶日志,讓機器能夠不停地學習如點擊、閱讀時長、轉發、保藏、投訴等反饋數據。
此外,機器能夠容易理解的反饋數據需要符合被標記標簽的性質,Facebook上的“ like ”和“ dislike
”就是一種數字化的標記反饋。對此,戴文淵建議企業應該建立數字化、不間斷的反饋數據閉環,將實時數據進行反饋,使模型具備自我進化能力。以第四范式“銀行交易實時反欺詐解決方案”為例,新的數據、新的欺詐場景實時反饋給系統,與此同時,對數據進行“欺詐交易”或是“正常交易”的標注,再用標注過的數據繼續模型的訓練,讓機器具備“火眼金睛”。
Algorithm ——高維度的算法能力
算法是人工智能決定效率提升的關鍵因素。戴文淵指出,人工智能技術的優勢包羅超越人類想象的特征變量組合方式,能夠做到“千人千面”甚至“千人萬面”,大量無法統計的規則會被機器自主發現和抓取,從而充分挖掘“長尾用戶”的行為規律,提高機器學習模型預測的精準度。這就需要超高維度的算法。
超高維度的算法,首先必要原始數據的絕對值很大,這對于大數據的分布式存儲、處理技術具有較高要求。其次,利用萬億級的海量特征進行機器學習特征處理、模型訓練以及線上辦事,需要成千上萬個節點進行協同工作,這對算法及系統的要求是全方位的
—— 從異步分布式的計算模式,到高性能的網絡,再到海量的內存存儲等都有極高的要求。對此,戴文淵提到去年 7
月,第四范式發布了新一代機器學習模型—— DSN ( Deep Sparse Network ,同 “ 深度稀疏網絡 ”
),該算法底層是上千億大小的寬度網絡,其基本理念是隨著數據量增大,模型的維度會隨之升高大,從而保證“機器的智力”連結高水準。
Infrastructure ——高性能的計算能力