上周電銷機器人路途,科大訊飛、搜狗、百度先后召開發布會,對外公布語音識別準確率均達到「97%」。
而一如闌夕所言「一旦語音識別的準確率達到99%,那將直接進入產業爆發的黎明」,在從97%邁進到99%的路程中,各大巨頭和資本早已開始造勢布局。
97%的準確率意味著優秀產品落地電銷機器人路途?
97%這一數字,看似散發著勝利的曙光,卻僅僅是語音識別準確率而已。
大眾預期的產品里面,智能語音作為人機交互層,需要達到完全理解的程度。這不僅需要高準確度的語音識別,更需要復雜動態的語義理解,機器才能準確理解用戶意圖。但這是兩種不同的技術:語音識別僅僅將用戶的語音指令與嘈雜背景音剝離開來,保證原始命令無誤;而語義理解更為復雜,也是提升用戶體驗的關鍵步驟要支持在不同用戶場景下,理解用戶的指令,理解真正用戶需求,進行上下文管理,并有效完成一次對話。
拿簡單的點外賣做個比方。智能手機上點外賣方式,無非是打開app,用戶自主選擇、點觸。而以語音交互為入口,用戶會向智能終端說道:「餓了,有什么好吃的?」
「您想吃點什么?」
而用戶會繼續語音發布指令:「電銷機器人路途我想吃火鍋,超級辣的那種。」
哪怕siri級別的助理,也足以搜索出足夠多的推薦,并且語音回復:「附近的火鍋有xxx,xxx」
「恩,但好像一人份的海底撈好像太多了,還是換冒菜吧。」
對話如此循環往復,機器接受語音命令,替用戶篩選出有效信息,降低了用戶交互成本。而現有的智能助理到這里往往會犯懵,在用戶切換話題的時候回答不知所云。而這也是智能助理廣為詬病的主要缺陷,即缺乏對話管理能力,導致用戶體驗不佳。而這一部分的提升主要依靠自然語言理解和深度學習技術的進步。
而獲取不同用戶場景下的海量數據進行訓練,才能讓機器滿足復雜的場景需求。而這也是開發布會的三大團隊步調一致的方向。根據科大訊飛發布會來看,業務從To B轉向To C,智能硬件將是下一個突破點,產品包括智能電視、音箱等。而這些產品的背后都是同一個技術平臺AIUI作為核心技術平臺驅動。如果說智能硬件是科大在C端嘗試開辟的入口,搜狗和百度依然是從輸入法中獲取用戶數據。搜狗自有搜索引擎作為數據來源,而百度還有百度地圖等其他產品輔助。
但是在對話交互時代,智能語音市場占據用戶入口的真的會是這三家之一嗎?
如果不是訊飛,下一個巨頭會是誰?
一直以來大幅占據媒體版面的都是科大訊飛、搜狗、百度,而人們習慣性地忽略了安靜的一方微信。而在這段跑道上最有優勢的是,微信是最靠近C端的App,活躍用戶驚人并天然積累了海量的語料庫。
微信已具備語音識別、語義理解研發能力,并且占據了IM入口。早在2012年騰訊就建立了模式識別團隊,后并入微信,逐步加入了語音識別功能。而在微信智能開放平臺的語音識別和語義理解開放接口中,可以窺見微信的技術能力和產品野心。 而且講真,微信的語音識別體驗并不落后于其他團隊,所謂1%或是2%的差距都是在滿足小概率的場景。
當然,微信有其先發優勢,但并不意味著不會有后來居上者。在交互方式迭代轉變的過程中,常見多種新舊并存的情況。在開辟藍海的混亂中,似乎看清歷史循環,更有可能布局成功。
公認的上一個科技風口,是由智能手機開啟的移動互聯網熱潮。在移動互聯時代,人機交互方式的物理介質是觸屏,多由用戶主動發起。慢慢的,App開始主動向用戶push消息,試圖喚醒用戶,爭奪用戶有限的注意力。
同理,在向新型人機交互方式轉變的過程中,要成為下一個科技巨頭,不是穩坐后端(類似SaaS服務)就是占據前端,把握用戶注意力的入口。那在語音技術和人工智能成熟后,機器會以何種形態陪伴用戶,交互會演化到怎樣的地步呢?
如同許多科幻電影著重刻畫的那樣,智能終端的形態非常多樣。從已問世的Google Home和 亞馬遜Alexa到國內的Rokid,科大訊飛以及小米都在推的智能音箱, 都是交互形式進化的智能硬件產物。小到個人可穿戴設備如藍牙耳機、手表,大到智能家居全部24小時待命,隨時接受用戶語音指令。
但現階段,僅僅以語音為支撐是不夠的。這些24小時隨時待命的智能終端,真的是隨著用戶語音喚起才進入工作模式嗎?如果不是,那么用戶在可錄音范圍內的活動,都會被智能硬件記錄下來,那么隱私數據將會掌握在誰的手里?再設想一個極端的用戶場景:戴著智能手表的用戶,擠上地鐵,卻只能用語音對智能助手說:「嘿寶貝兒幫電銷機器人路途我訂個飯,叫到公司。」萬一環境嘈雜,助手寶貝兒聽不懂指令,只能反復,十足滑稽。這自然不如打字與智能助手聊天來的得體。
人類總是渴望全面智能,同時也在某些方面極力對抗科技,維護個人隱私的體面。
對話式交互將走向何處?
從Chirs Messina提出「Conversational Commerce」這一概念以來,不論媒體與資本如何夸大造勢。但不可否認,對話交互確實是大勢所趨。與此同時,智能語音不足以全面滿足用戶根本需求。隨著自然語言處理和人工智能的成熟,多樣化的智能終端將會支撐文本和語音交互相輔相成的局面。
就比如最近大熱的微信小程序,支持了websocket協議。這意味著長連接的用戶場景,例如對話式交互,開發成本也會降低。屆時,預計會有一大波借對話式交互為載體的場景式服務將借微信平臺快速崛起,許許多多個如同「助里來也」的服務將會向你招手。
無論成熟與否,這都是對話式交互成長的必經之路。
本文來源人工智能中文資訊平臺
想要了解智能靈聲機器人,電銷助手,請關注“智能小世界”微信公眾號哦!
如需要了解產品詳情,可電話咨詢專業客服人員:15358521011(微信同號)