2019年12月26日,由百度與ZOL聯手舉辦的智見未來峰會——暨2019年度星標大獎頒獎盛典在北京舉行。在盛典上百度語音首席架構師賈磊發表了主旨為百度大腦語音技術的前沿進展的演講,從百度語音產品矩陣、百度智能語音解決方案、百度智能語音交互系統這三方面全方位介紹了百度智能語音交互系統全景。
百度語音首席架構師賈磊
賈磊指出,面對未來智能語音產業鏈的新需求,百度將研發新一代的端到端智能語音交互系統,實現語音交互全鏈路協同處理。
百度創新提出復數CNN網絡的語音增強和聲學建模一體化方案
賈磊在演講中提到,傳統的遠場語音交互系統中,是先采用一個基于麥克陣列的語音增強模塊,之后再接一個語音識別模塊,兩個模塊串聯連接。這種系統設計方法具有很多先天局限性。為了更好的智能遠場語音交互體驗,我們需要設計一套全新的深度學習模型。如果能設計一種全新架構,一套模型,從原始多路聲音信號開始,對識別文字直接端到端建模,從而使得遠場識別性能大幅度的提升。可以喚醒后,360度隨意的識別,并且不用要求設備音頻回路必須是線性,賈磊說。
而這就是百度推出基于復數CNN網絡的語音增強和聲學建模一體化的端到端語音識別方案的初衷。其最大特點就是顛覆了數字信號處理學科和語音識別學科的傳統經典理論,直接一套模型端到端的打通兩個學科,完全數據驅動,端到端建模,賈磊說。
具體來講是,該模型底部以復數CNN為核心,利用復數CNN網絡挖掘生理信號特點。采用復數CNN,復數全連接層以及CNN等多層網絡,直接對原始的多通道語音信號進行多尺度多層次的信息抽取,期間充分挖掘頻帶之間的關聯耦合信息。
在保留原始特征相位信息的前提下,這個模型一次性實現了前端聲源定位、波束形成和增強特征提取等功能。該模型底部CNN抽象出來的特征,直接送入端到端的流式多級的截斷注意力模型(SMLTA)中,從而實現了從原始多路麥克信號到識別目標文字的端到端一體化建模。
百度賈磊:百度大腦語音實現突破,深度學習助力語音識別打破領域壁壘
因為整個網絡的優化準則完全依賴于語音識別網絡的優化準則來做,完全以識別率提升為目標來做模型參數調優。而由此帶來的好處也不言而喻。根據統計數據顯示,相較于傳統基于數字信號處理的麥克陣列算法,基于復數CNN網絡的語音增強和聲學建模使得錯誤率降低超過30%。
賈磊說:我們基于以上這個技術,對于語音交互上將有更大的提升,而這種提升和進步是顛覆性的。另外深度學習完成了數據革命和計算革命之后,開始進行跨學科整合,繼續獲得生命力和提升。
另外從復數CNN網絡的語音增強和聲學建模一體化方案來看,深度學習在完成數據革命和計算革命之后,開始進行跨學科的整合,打破學科間的壁壘,兩個學科聯合在一起繼續獲得生命力提升,這是百度語音技術提升的軌跡,賈磊指出。
SMLTA+全雙工免喚醒拓展百度多語音識別能力
百度提出流式多級的截斷注意力模型SMLTA,在國際上首次實現流式注意力建模超越整句注意力模型的性能,也是國際上首次實現在線語音識別大規模使用注意力模型。SMLTA在大幅提升識別速度的同時,也提高了識別準確率。輸入法有效產品相對準確率提升15%,音箱有效產品相對準確率提升20%。
基于此百度在對話能力迎來重大技術革新——全球領先的全雙工免喚醒能力,實現了一次喚醒,多輪交互免喚醒詞連續對話。
基于以上技術,百度提出了語音語義一體化解決方案,即百度可以做到一套模型同時識別中文英文和方言。如在2019年1月百度輸入法上線河南、山東、四川、東北、陜西、安徽方言的無障礙輸入,今年年底將支持河北、山西、湖北、湖南、云南等。另外,值得一提的是,百度輸入法還是支持中英文混合語音輸入,而且識別率大幅度改進提升。
除了在應用和技術上的突破創新,賈磊還帶來了百度大腦語音技術的前沿進展:百度2018年和2019年先后推出百度昆侖百度鴻鵠兩款人工智能專用芯片,讓智能時代的核心硬件技術自主可控。經過不斷優化發展迭代升級,基于鴻鵠語音芯片已逐漸開始覆蓋智能家居、智能車聯、智能IoT的三大場景解決方案。
賈磊說,2018年和2019年先后推出百度昆侖百度鴻鵠兩款人工智能專用芯片,讓智能時代的核心硬件技術自主可控。
主題演講最后,賈磊表示:希望通過語音技術和硬件芯片,為各大廠商為中國社會做更好地服務。
寫在最后
當前以AI技術為核心的第四次工業革命已經拉開大幕。特別是隨著5G商用之后,AI技術的落地正在加速,同時也是AI滲透到社會生活方方面面的開始。
這里百度憑借自身AI核心技術上取得諸多突破和儲備,以及積極打造AI開放生態這兩大優勢,正確立在AI技術革命中的行業領先地位。