剛剛結束的全國兩會,不僅是人大代表繁忙的時刻,更是讓廣大媒體記者忙碌了起來。歷時兩周的兩會,各大媒體記者需要整理上百個大大小小的會議、幾千名人大代表的各種會議精神和發言內容,確保新聞的時效性。若是沒能速記到一字不差,便只得老老實實通宵整理會議錄音,費時費力。
為了方便更多媒體記者快速整理訪談、會議新聞稿件,捷通華聲在靈云語音云上線最新ASR引擎的基礎上,推出黨政會議專業領域語言模型,面對兩會發言、政府報告、黨團會議等相關錄音實現了超高的轉寫識別準確率,獲得媒體記者一致好評。
黨政專業領域模型優化 成就超高識別準確率
“我的天!這語音云也忒牛了!本打算熬夜整理兩會錄音的,沒想到等了幾分鐘,錄音內容就變成了文字,太省事了!”一位剛剛結束兩會工作的記者用了靈云樂識轉寫錄音后驚嘆道,“而且這準確率太高了,黨政相關的專業詞匯幾乎全轉寫對了!”
兩會政府報告轉寫結果,準確率近99%
近期,有不少記者使用了靈云語音云轉寫了兩會相關內容的錄音后,紛紛表示識別準確率大幅提高,像“第十三個五年規劃綱要草案”、“全面建成小康社會”、“戶籍人口城鎮化率”等等黨政領域的專業詞匯都轉寫的十分準確。
如何造就變態準的識別率?
本次識別準確率提升明顯的良好體驗,得益于捷通華聲針對語音云靈云樂說的語音識別技術,在核心ASR引擎的升級和語言模型的定制領域訓練優化。
語音識別系統結構框圖
從語音識別原理來講,影響語音識別準確率很重要的因素在于語音識別系統的模型,一般包括聲學模型、語言模型兩部分,捷通華聲通過領先的人工智能技術,在兩方面針對黨政會議的錄音均進行了針對性的優化。
聲學模型是從語音信號中抽取的特征到音節概率的計算。作為語音識別系統的重要組成部分,它占據著語音識別大部分的計算開銷,決定著語音識別系統的性能。捷通華聲通過將最新推出的全新一代靈云語音識別引擎,對建模單元粗粒度、模型訓練方法、解碼幀率進行創新優化,有效提升了語音識別引擎的執行效率、魯棒性,增強了口音、語速適配能力,大幅提升了聲學模型的效果,識別率得以實現跨越式提升。
語言模型是音節到字概率的計算。捷通華聲近期通過對語言模型進行定制場景訓練優化,推出了專門針對黨政會議的語言模型,該模型將大量關于黨政會議、報告的語音及文本語料放入其中進行了訓練優化,面對涉及黨政相關的領域詞匯,實現了更好的匹配度,從而面對專業領域的錄音,有了更好的識別效果。
除了黨政會議領域,靈云語音云還擁有新聞媒體、會議辦公、情感寫作、IT科技、影視娛樂、醫療保險、法律法院務等多種領域的語言模型以供用戶選擇,滿足不同領域的音頻轉寫,幫助各行各業的用戶實現高效記錄和信息輸入。
在線轉寫編輯 邊聽邊改更高效
語音轉寫為文字后,為更好地提高文字整理效率,語音云還擁有在線分音頻節點編輯功能,用戶可以點擊任意需編輯的文字,系統會定位到該處文字的音頻節點,然后邊聽該段音頻邊即時修改文字,哪里文字轉寫不準,可以隨時點擊定位到相應錄音上進行修改。
通常一段一小時的采訪錄音需要花三四個小時才能整理完,而有了這個強大功能,通過邊聽邊校對,一小時的錄音聽完也就整理完了。并且,完全避免了整理錄音時聽著錄音手動按下暫停,在word上敲打文字后再回來點擊繼續播放的復雜操作。
語音云直達鏈接
用戶可直接輸入網址:speech.aicloud.com即可進入語音云網站,另外也可以登錄靈云平臺(www.aicloud.com)點擊語音云服務按鈕進入。