業內皆知,作為人工智能領域發展最成熟,歷史最悠遠的分支之一,人臉識別有包孕LFW 和MegaFace在內的諸多國際級別賽事,而微軟在去年提出的 MS-Celeb-1M 基準測試則被譽為人臉識別年度“世界杯”。就在比來,最新一屆“世界杯”落下帷幕,更像是對“中美兩國AI發展并駕齊驅”的某種印證,一家名為獵戶星空的中國人工智能公司,在其中一個重要競賽項目中奪得頭魁。
考慮到賽事的權威性,在不少行外人眼中——在人工智能疾風驟雨般滲透進大眾生活之前,上述結果委實有些不測。值得一提的是,借助計算機視覺領域頂級會議ICCV 2017的平臺,本屆競賽既包孕大規模人臉識別競賽(Hard Set 及 Random Set),還頗具新意地推出了更具挑戰的小樣本學習(Low-Shot Learning)競賽,可謂近年來業內公認的含金量最高的同類賽事,這也自然招致全球各地人臉識別團隊超強的“奪金”欲望,至今不滿一歲的獵戶星空獲得了這項賽事識別子命題有限制類(只使用競賽提供數據)第一名。
事實上,比來一周,這家初創企業出了不止一次風頭。7月26日,傳聞已久的小米AI音箱正式發布,后者采用360度遠場語音控制,在提供在線內容的表層應用背后,這款音箱無疑承擔了小米“智能家庭中樞”角色,是小米試圖將整個生態鏈產品“連起來”的關鍵布局。而作為獵豹移動旗下人工智能子公司,獵戶星空是小米AI音箱重要合作伙伴,為其提供了一套可以用“這個星球最溫柔聲音”回復用戶的語音交互系統。
將時間軸撥回一個月前,他們還聯合喜馬拉雅同樣發布了AI音箱“小雅”,背后技術核心同樣是獵戶星空全鏈路自研的遠場語音交互系統——盡管踏上AI音箱“風口”的企業有先后之分,但當他們在尋覓語音交互這塊最重要的長板時,獵戶星空都是他們最值得仰仗的嫁接對象。
至少在現階段,人工智能大概可分為語音識別,圖像識別,語言理解和機器人等應用技術,其中語音識別和圖像識別是目前相對成熟的領域,遍及準確率都超過90%,這也意味著再想要持續精進的難度,獵戶星空能在短時間內一舉拿下了人工智能兩座已經很高的高地,在創業公司中確實比較罕見。
不久前,《紐約時報》在采訪大量美國政府官員和硅谷精英后就得出結論:中國的人工智能將與美國齊頭并進,中國已經誕生孕育人工智能溫潤的社會土壤。如果將這家中國初創企業的“世界杯”奪魁,擱置在中美AI競賽的宏大配景,仔細分析這家公司,就顯得意義不凡。
技術長板
先從微軟的這次角逐談起。
如前所述,獵戶星空獲得了這項賽事識別子命題有限制類(只使用競賽提供數據)第一名。顧名思義,與更偏向于比拼數據的無限制類(無限制使用外部數據,數據越多訓練模型當然越好)比擬,有限制類別只能在限定的數據集內調用,是比較純粹的算法比拼,因為在限定數據情況下想達到最高精度非常困難,難度也更大——當然,正是由于這種限制性,有限制類的算法比拼也相對公平。
公平也意味著高門檻。競賽數據噪聲大,無法直接拿來訓練,而整個訓練數據集也很大,適合人臉模型大規模訓練的模型對資源的要求又高,很難做到又快又好。于是經過探討,獵戶星空團隊設計了一種魯棒的去噪算法,可針對各類差別程度的噪聲數據進行有效去噪,同時選擇采用適合大規模訓練的 triplet 模型,通過一種頗為巧妙的設計在有限資源下加速了triplet網絡的訓練,大大提升了性能,最終獲得 0.75/0.606(random set/hard set)的高分——這一成績遠超以往記錄,幾乎達到了不使用外部數據的極限。
事實上,盡管成立時間不長,但團隊成員過往的技術積淀讓他們創立初就開始投身人臉識另外探索。參賽“世界杯”前,他們就在另一項人臉識別國際賽事 LFW 上取得了前三名。
而與不少初創團隊醉心于“秀技術”差別,依托于獵豹移動強大的產品思維底座,他們深知一點:將技術蛻變為產品,從來都是檢驗技術成熟的唯一尺度。于是,獵戶星空上述所有角逐技術都不會被擱淺在學術陳訴或者角逐賽場上,而會被運用到在門禁,機器人和移動 APP 等具體產品。舉個例子,目前人臉識別技術就被用于獵豹旗下的直播產品 Live.me 中,后者每天產生超過 20 萬小時的直播內容,運用圖像識別技術可以進行 24 小時的實時監控,極大提高違規內容的審核效率。
讓人溫柔以待的音箱
談及技術落地,獵戶星空讓人工智能音箱做到“像人類一樣溝通”,或許是更好的例子。