VocalZoom與科大訊飛攜手打造中國最普及的語音識別系統在噪音環境方面取得突破性進展
- 早期測試顯示:VocalZoom的光學傳感器能將科大訊飛的聲控平臺的自動語音識別(ASR)性能平均顯著提高50%以上。
- 最明顯的性能增強體現在最高噪音級別環境中,例如:將車窗保持打開狀態時駕駛汽車所產生的噪音。
- 很多公司正在探索將VocalZoom的傳感器技術與科大訊飛的“語音云”結合起來,而“語音云”是中國領先的移動云和嵌入式應用程序的智能語音平臺。
作為人機交流(HMC)光學傳感器的主要供應商--VocalZoom,其產品可以帶來一種更自然、更個性化的、安全的聲控體驗。今天該公司宣布,它已經與科大訊飛簽署了一項協議,將VocalZoom的人機交流(HMC)光學傳感器與科大訊飛的“語音云”智能語音技術平臺相結合,并進行性能測試;該平臺是在中國應用最為廣泛的解決方案,擁有數以百萬計的用戶。初步結果表明,通過向用戶耳機和汽車信息娛樂解決方案中加入VocalZoom傳感器,科大訊飛的自動語音識別(ASR)功能可以平均得到50%的改善,尤其在嘈雜的噪音環境中得到更多的改善。
“隨著我們不斷探索將兩種技術融合到語音控制和身份驗證的革命性解決方案中,VocalZoom 和科大訊飛打算在本月完成聯合測試。我們通過使用更小、更時尚的耳機以及在各種各樣的應用程序中的其他解決方案來共享更好的聲控體驗。”
科大訊飛高級研究員王海坤(Haikun Wang)表示“根據全球主要基準測試的標準,科大訊飛已經成為最好的聲控解決方案,但是當前面臨的最大挑戰就是在噪音環境中的性能表現。我們相信VocalZoom的技術可以為我們在性能改善方面取得突破性進步奠定基礎。” 他續指 “我們已經在多個場景中測試了VocalZoom傳感器,其中包括將車窗保持打開狀態以及狂風噪聲的環境下,在駕駛的汽車內部所產生噪音的場景,而相應的性能改善是相當可觀的。”
使用虛擬助理和汽車語音控制的人機交互的關鍵是這臺機器是否可以完成人們指定的任務,并且足夠快速、準確地滿足用戶需求。即使是最新的降噪法,如今的聲學麥克風在這種控制水平下仍舊不能達到足夠的聲音隔離效果,特別是在嘈雜的環境中。VocalZoom多功能人機交流(HMC)傳感器通過收集人在談話時的其他數據來解決這個問題,例如人在說話時嘴巴、嘴唇、臉頰和喉嚨附近的面部皮膚的震動等數據。通過將VocalZoom光學人機交流(HMC)傳感器集成到聲控解決方案中,并令它著重針對這些領域,可以捕足、測量面部震動的數據,并將其轉換為一個獨立的、近乎完美的參考信號。系統可以通過這個信號進行運轉,而不受噪音水平的影響。
“能夠與科大訊飛合作,顯著提高最為廣泛使用的自動語音識別(ASR)平臺的性能,我們感到非常興奮,” VocalZoom銷售和業務發展副總裁Rammy Bahalul如是說。“隨著我們不斷探索將兩種技術融合到語音控制和身份驗證的革命性解決方案中,VocalZoom 和科大訊飛打算在本月完成聯合測試。我們通過使用更小、更時尚的耳機以及在各種各樣的應用程序中的其他解決方案來共享更好的聲控體驗。”
VocalZoom和科大訊飛已經測試了一個解決方案的性能,即在多個不同噪音級別的場景中以及結合音樂、汽車噪音和其他干擾因素的移動汽車內部,對兩家公司的技術相結合的解決方案進行了測試。自動語音識別(ASR)性能已經被提高至一個幾乎完美的級別,而之前在同樣的高強度噪聲環境中,理想的聲控性能幾乎是不可能的。