人工智能時代的到來,語音合成技術已在車載導航、朗讀軟件、高鐵廣播等各行各業中廣泛應用。隨著技術的日新月異,擺脫機械化的發音,像真人一樣擁有極具情感表現力、抑揚頓挫的聲音,不僅是語音合成技術的發展方向,也是難點之一。
憑借十多年深厚的技術積累及行業應用,捷通華聲打造出具有劃時代意義的靈云情感語音合成技術,能夠合成出帶有語氣、情緒等情感豐富、更接近真人的聲音,并可通過“云+端”的形式讓每一家企業都能輕松擁有更動聽、更富感情的語音合成服務。
為了賦予聲音更多的表現力和個性化,讓新一代合成技術適配到各種非標準化的場景中,提升用戶對企業專屬聲音的“粘性”,捷通華聲基于深度學習技術潛心研發,實現了合成效果的全面提升,音色細節高保真、情感真實豐富,流暢度平順穩定,頓挫的頑疾徹底根治,并廣泛采用GAN(生成對抗網絡)來訓練模型,提高音質的擬人度。
全面升級打造極致聲音體驗
在語音合成需求市場,不同企業會根據自身不同的場景和產品特點采用不同的聲音,例如銀行的智能客服需要嗓音甜美、溫柔動人的聲音,而催收公司則需要措辭懇切、略顯嚴厲的聲音。語音合成的情感化、個性化成為如今市場的迫切需求。
全新升級的靈云情感語音合成技術在發音效果上顯著提升,吐字更清晰、順暢,緩解合成中的刺耳雜音,音質更加扎實、明亮,在一些細節及專業領域的發音上也進行了優化,例如:標點的韻律停頓更接近真人;金額、日期等數字發音效果更加自然;“年月日元”、“百分之”、“點”等分詞朗讀時的發音也更加順暢;在對標注為人名的詞可直接按姓氏讀音,提高了技術使用便捷性。
在合成音色的情感化、個性化更加明顯,靈云情感語音合成技術采用高魯棒性預處理和建??蚣埽档土艘酝鶎︿浺麸L格和穩定性的嚴格約束,普通人自然講話、刻意帶情緒講話、角色模仿講話,均可訓練出保真、穩定的效果。除了提供男聲、女聲、童聲等基礎音色庫外,還有更多個性化、飽含情感的音色,包括柔美動聽、干凈利落、甜美可愛、純真自然、成熟穩重、熱情洋溢、措辭嚴厲等等,可為各種應用場景提供合適的聲音,全面滿足企業個性化需求。
面對專業領域的合成需求時,新一代合成技術也進行了優化,例如:面對導航類的合成時,遇到“從XX到XX”這類句式中的長地址,會分段停頓播報(如“北京市/海淀區/中關村軟件園/2號樓”)。
同時,捷通華聲十多年來積累了大量的領域詞庫、預選音庫,可為金融證券、天氣預報、體育賽事、公交汽運、航空、稅務、POI、排隊叫號等眾多領域提供更專業的語音合成播報,客戶能夠快速、輕松定制與自己產品屬性、形象相匹配的聲音,為產品賦能。
針對不同企業的特殊需求,捷通華聲也支持音庫的個性化定制。傳統語料數據處理方式為手工精標,既費時又費力,捷通華聲采用先進的人工智能技術,實現高度自動化的數據加工標注,并擁有專業的數據定制團隊,企業只需提供自己需求的音色錄音,即可快速定制出音庫。
專注AI技術研發引領行業變革
十多年來,捷通華聲一直專注技術研發與創新,依靠國內領先的靈云語音合成技術,在國內智能語音市場占有率超50%:
早在2001年,捷通華聲便推出代表國際領先水平的jTTS世紀版。隨后,捷通華聲成為建行、農行的唯一語音合成供應商,全國99%的高鐵站也均采用靈云語音合成播報。同時捷通華聲成功服務北京奧運會,上海世博會也采用靈云語音合成技術播報賽事。到2016年,捷通華聲已成功為上千家企業提供語音合成技術。
讓聲音自然,富有情感和表現力,一直是語音合成技術的一大難點。如今,靈云語音合成技術已全面支持中文普通話、粵語、維吾爾語、英語、日語、德語、法語等幾十種語言。捷通華聲正在利用全新推出的靈云情感語音合成技術,為金融、電信、能源、交通、政府、醫療、互聯網等上千家企業提供更加優質的服務,全新體驗的語音合成產品引發了巨大變革。
不論是智能客服、地圖導航、機場廣播的甜美女聲,還是新聞播報、聽書朗讀的清爽男聲,智能家電、機器人的可愛童聲,靈云情感語音合成技術都能讓有各種需求的企業快速擁有更具競爭力的產品,讓社會大眾能夠體驗到富具情感、更聲情并茂的聽覺體驗,為企業打造專屬“聲音”形象。