近年來,隨著人工智能以及智能語音應用的飛速發展,各大公司及企業都在積極布局相關的技術應用及場景,AI+行業的商業化推廣落地也進入了深水區。
從事語音、人工智能行業近10年,有幸見證并參與了行業的發展,也對智能語音在實際場景中的應用及商業落地的難點有所體悟。下面是對智能語音技術的簡單介紹,并對其在實際應用中應關注的核心問題提出一些我的思考。
什么是智能語音技術,其發展如何?
我們平時接觸的任何語音相關應用(如微信語音、語音輸入法、外呼機器人等),其實本質都是兩大核心能力的體現——音轉字ASR和字轉音TTS。結合自然語言處理,理解并處理文本,即組成了人機交互的基本能力。
語音交互的基本模型
智能語音應用基于三大要素:計算機算力、海量數據以及算法模型。隨著過去多年的積累,不同類型的語音語料積累的足夠多了,通過訓練后的語音識別技術得以快速提升。相對10年前的情況來看,目前絕大部分語音識別技術的翻譯準確率都已經很不錯了,在噪音處理、語氣語調、語義理解等方面均已大大提升,而最終在商業化上的能力差異體現關鍵在于兩點:
一,是否擁有核心的自主底層專利技術與能力?
基于外接技術或引擎之上的智能語音商業化落地,終究是無根之水,難以持續的演化及進步。坦率的說,在這條賽道上競爭的廠商能擁有100%自主知識產權核心技術的并不多,在可預見的未來,這必將形成商業伙伴選擇供應廠商的重要門檻。
二,是否有足夠多的商業落地場景和實施經驗?
智能語音在行業及商業上的落地需要腳踏實地做實際的事情,解決真實業務上的痛點。大部分客戶需要的不僅僅是技術,而是一整套解決方案,優化改造業務流程、項目指導以及經驗總結,交流分享?;诟叨戎貜蜆嫾慕M合+部分的差異化定制才是項目成敗的關鍵。造輪子和組裝輪子在客戶的業務層面往往意味著極大的難度鴻溝與時間成本,而很多的友商伙伴們尚未真正意識這一點的重要性。
智能語音場景化需要關注的問題
就現在的實際情況來說,語音識別技術和應用產品如果希望有更好的表現,還是要像過去幾年那樣持續不斷的去做數據訓練:不同地域口音方言的訓練、不同行業專業詞匯的訓練。
既然數據和訓練的投入是持續的,而且硬件及訓練的成本也困擾著場景的落地,那么一味為了追求更高的轉譯準確率在成本及效率上是否值得,也是需要深入去思考的。在商業化落地的角度來說,供應商的準確率從85%-90%,與90%-95%的訓練代價在成本和時間上的投入,與及客戶期待是無法對等的,后者在訓練周期與時間成本上很可能是前者的5-10倍,但收效甚微,而過度的追求準確率亦會嚴重拖慢項目上線的時間進度與人力投入。那么我們在實際應用中應該如何選擇呢?
我們的建議是從業務上不應過度的追求全文語音轉譯的準確率,而應該聚集于該場景下你所關注的具體訴求是什么,以場景應用為導向,關注實施的執行而不是過程。不是關注全文識別率準不準,而是我要識別的那部分準不準,因為絕大部分的真實業務場景下的語音應用均是限定在某個特定范圍內。
以語音質檢為例,如果以模型質檢點相關的文本來訓練往往都能實現90%+,甚至更高的水平,而全文轉譯卻很難達到,但這并不影響語音質檢的實際應用,因為在該場景下,只要與質檢點及模型相關的那部分語音識別準確率能達到即可為質檢工作提供高效及有力的支撐。
大部分質檢的實際工作的真實關注點是所謂的質檢項是否滿足即可,全文的語音轉譯是否準確在該場景下是一種類似白噪音的存在,準確與否在大多數的情況下并不會影響該場景的真實應用,這就是一種應用為先的思考考量。
因此,請不妨嘗試著以這個思路來分析一下你手中的業務場景:你想要識別的內容應該不會很多很多,而自然語言中其實還含有與你希望利用的業務價值大量無關的,諸如無意義語氣詞,重復語句等。所以,語音識別并不一定需要非常高的準確率,它并不會實際阻礙你去利用該技術實現語音文本分析及探索業務價值。
圖像識別技術(OCR)技術就是一個很好的案例來說明這個問題,從普遍的識別準確性來看(類似于語音的全文轉譯準確率),OCR并不如大家想像中的智能,準確率亦沒有想像中的高,通用性場景下基本都低于85%。以停車場車牌識別為例,該場景車牌識別上卻非常普遍好用,準確度也高,就是利用了這種場景化下的針對訓練(車牌識別所需的范圍是相對可控的,要識別的對象也很有限——近場識別,字母、數字,車牌形狀統一),同時拋棄了其他無用識別的干擾。
這就是筆者上面所說的應用為先的思考思路,類似的例子還有很多,請大家不妨試試跳出思維的定式框框來重新思考您在實際應用中的智能語音應用場景。