上一次電腦和你說話是什么時候?
如果你和大多數消費者一樣,你今天早上或許在家通過智能音箱查問天氣和新聞,或者在通勤的路上讓車載語音助手為你獲取最佳的駕駛路線。
隨著語音助手變得越來越普遍,以及語音合成(TTS)技術越發先進,推動了像語音克隆、無性別語音助手和更多的創新應用。與此同時,我們在開發創新產品時必須考慮科技時代的倫理規范。
通過這篇文章,Cerence的TTS開發總監Johan Wouters解答了大家最為關心的一些問題:
人們會被TTS愚弄或誤導嗎?
如果集成了語音合成技術的應用程序沒有規范用戶如何適當使用合成音,TTS有機會被有心人濫用,存在安全隱患。其實,合成語音與人類的聲音已變得難以區分,并且有可能合成任何人的聲音;因此,應用程序必須清楚地標識語音是由機器合成的,以避免混淆用戶。
針對語音合成技術應用的安全風險問題,Cerence用戶界面(UI)專家進行了各種用戶研究,并向客戶提供UI設計方面的最佳實踐。
TTS是否可以用于不適當的目的?
語音合成技術發展迭代迅速,現階段語音合成技術已經可以模擬人類的聲音、語氣和情感,通過機器就可以生成以假亂真的聲音。這意味著,不法分子可以將應用程序用于詐騙的行為。
科技改變了人與人的交流方式,在信任錄音或通過免提電話與人互動之前,你需要額外小心。正如修圖軟件的普及讓數字圖像編輯變得容易,從而直接影響了照片和視頻的真實判斷。
語音模擬并不新鮮,對于有不同意圖的人來說,應用也變得更容易。但從專業的角度,先進的語音技術是可以防止不當使用,這正是我們下一個重點討論的話題。
Cerence是如何防止TTS技術不規范的使用?
我們與客戶保持密切聯系,其中包括所有世界領先的汽車制造商,并支持他們在充分考慮倫理規范的情況下,讓用戶使用TTS技術以獲得更多的便利。
一般情況下,我們不會將我們的技術提供給個別開發者,因為發生不規范使用的可能性會較高。
作為領先語音技術的提供商,Cerence提供的聲紋驗證解決方案,不僅能夠對每個人獨特的聲紋進行準確的驗證,還可以檢測到合成語音的使用情況。
每個人都有獨一無二的“聲紋”,這一點和指紋一樣。聲紋代表了特定說話者的生物特征和行為特點。生物特征是指說話者聲道的特性,如長短、形狀與大小,讓每個人發出不一樣的聲音。行為特點是指聲音的韻律特點,如口音、語速以及詞匯發聲與重音。
此外,Cerence正在研究音頻數字水印算法的應用,將人耳聽不到的水印信息嵌入在TTS中,以確保我們的聲紋驗證方案總是能夠準確識別說話人的身份。未來,一些政府部門可能會要求TTS系統始終嵌入音頻數字水印。
在文本轉換成語音和計算機生成語音的世界中將帶來很多商機,但就像任何技術創新一樣,我們必須把終端用戶的倫理規范放在首位。Cerence將致力發展并繼續在這一領域保持領先的地位。