
AI的“黃金時代”已來!那離我們比來的AI是什么呢?地圖里的語音入口,機器翻譯、拍照識圖、無人超市,還是比來大熱的智能音箱,好比正式開售的可語音購物的xx精靈。但這些真是能解決痛點的AI嗎?
近日,在AI領域博得先機并明確將赴美上市的搜狗,,推出了一款小眾的免費產品——“搜狗聽寫”,目的是為了解決會議、采訪、寫作等場景下長語音內容轉寫難,可以將語音實時轉釀成文字,并能標注重點、邊寫邊改進行文字編纂。
“聽寫”和“轉寫”為文字工作者減負
采訪一小時,整理錄音三小時,寫稿兩小時……這是機器人圈記者的工作常態,相信也是大量同行的日常,并且除了記者編纂,包孕職業寫作者、會議記錄整理者在內的不少文字工作從業人員都有相似遭遇。
當然,“人肉”速記能夠解決部分難題,但一有專業性的門檻,有些速記記錄的術語實在不忍多看;二是時間上需要排期,費用上也需要考慮,并不是所有的“扒速記”工作都能如愿“轉包”出去。當然,市面上也有類似的工具,提供付費的轉寫辦事,只是準確率仍差強人意。
再看“搜狗聽見”這款免費的APP,確實是擊中了部分人的需求。從功能上看,提供包孕“聽寫”和“轉寫”在內的兩種模式:“聽寫”模式可在錄音的同時給出實時識別結果;“轉寫”模式則可在離線狀態下錄音,錄音完成后一次性獲取文字結果。
它還提供邊聽邊改(生存錄音后,可以邊聽錄音邊修改文字)、按照語義自動添加標點、支持文本/語音標重點、多客戶端同步、信息分享等功能,而且在人的說話音量低至 30 分貝時,依然可以識別。
值得一提的是它的“大殺器”功能,可以按照記者、作家、自媒體等文字工作者的需要,連接搜狗輸入法的個人詞庫,引入個性化詞匯,好比機器人圈的昵稱“圈圈”估計就屬于獨門。


此外,“搜狗聽寫”還將推出Windows版,專注大會場景的實時速記。
“喂”數據才能更強大
對于有著強大需求的機器人圈記者,在現場已經迫不及待的試用了一下產品。


記事寫作比訪談錄音呈現出來的準確性更高
對此,機器人圈記者也采訪了搜狗公司語音交互技術中心總經理王硯峰,他體現所有的搜狗語音類產品背后都是知音引擎,不過,一般面向具體的場景會有優化,有專門的語音模型。在演講、聊天的場景下,和車載、會議以及手機近場說話的語音模型都是不盡相同的。
搜狗語音交互技術中心技術總監陳偉還介紹,搜狗聽寫使用了搜狗知音引擎的長時語音轉寫技術,從立項到現在,錯誤率已經下降30%。在聲學模型方面,采用了端到端深度神經網絡技術Deep
LC-CLDNN+CTC技術,轉寫模式則使用了Deep CNN+CTC的方式,語言模型基于T級海量輸入法文本數據使用神經網絡進行建模。
此外,影響準確度的還有硬件降噪,手機的降噪能力是比較弱的,尤其手機上在遠場的識別率不高,原因就在硬件上手機并沒有面向遠場識另外麥克風陣列。
還有一個重要的原因是數據的不足,“喂”數據訓練模型提高準確度已經是產業界公開的奧秘,實時語料數據也將成為這一領域的真正“壁壘”,所以希望準確度提高,也離不開每個用戶的支持。
“自然交互+知識計算”的技術路線圖
當語音領域的隊友們都在“刷音箱”,為什么搜狗卻做了一款“小眾”的轉寫APP呢?稍微回顧一下,搜狗在語言領域的布局。在 2016 年 6 月的搜狗輸入法十周年上,搜狗CEO王小川就提出了將人工智能定位搜狗輸入法的下一階段戰略發展的新標的目的,搜狗CTO楊洪濤則首次透露了搜狗輸入法的快速分享、聰明回復和妙筆修飾等目前正在研發的三個能夠增強用戶表達能力的人工智能新技術;而在 7 月的奇點創新者峰會上,王小川更是直接邀請一名現場不雅觀眾上臺直接演示完全通過自然語音來發送一段短信息。