CTI論壇(ctiforum.com)(編譯/老秦):語音體驗無處不在,從家中的智能技術到汽車中的命令。語音是一種新興的、更人性化的與周圍環境互動的方式,正在推動下一波消費者和員工體驗。事實上,Opus的研究發現,80%的受訪者認為流感大流行加速了自動語音識別的采用。
由于開發人員利用了這種新的通信模式,因此在創建健壯的用戶體驗時,瀏覽所有不同的組件可能會很棘手。作為一名專注于人工智能通信領域的首席技術官,我與許多客戶交談,了解他們需要什么才能使他們的語音體驗獲得成功。以下是創建強健的語音體驗時要避免的四個關鍵事項:
忽略音頻源的質量。基于語音的體驗在很大程度上取決于音頻輸入的質量和融入體驗的轉錄能力。作為一名開發人員,提倡高質量的語音數據非常重要,因為低質量的語音音頻不僅很難聽到,而且會使開發您的語音體驗變得更加困難。確保您使用的是良好的語音格式,并采用FLAC和Opus等標準,這些標準提供了良好的壓縮和優化。好的ASR提供商將能夠處理您擁有的任何數據,但如果您避免使用低采樣率(如8kHz),而使用更高質量的采樣率(如16kHz),您的數據將更干凈。在一天結束時,與您的團隊合作以確保您的錄音要求被聽到是很重要的。
依靠具有剛性架構的ASR。我經常看到開發人員被鎖定在提供最小靈活性的現成解決方案中。尋找一家提供低成本解決方案和易于導航的實時功能的提供商是現實的目標,但沒有一種適合所有人的解決方案。開發者需要確切地知道他們希望從音頻數據中得到什么,這樣他們就可以選擇一種技術來分析最相關的見解。尋找能夠提供部署靈活性和速度、高精度、實時能力、可擴展性和定制培訓的提供商非常重要。這些功能的重要性排名將根據您的使用情況而有所不同,但選擇一種對每種功能都很好的ASR技術將使您的語音體驗更好,因為它們會隨著最終用戶的需求而變化和增長。
忽略應用程序將在其中使用的上下文。如果你想讓你的語音體驗在電腦上運行,你就不需要擔心連接和帶寬。另一方面,如果您的團隊成員主要使用可能出現連接問題的移動設備,那么您應該選擇針對低帶寬進行優化的最適合的音頻編解碼器,這樣您就不會占用用戶的網絡連接。對封閉源代碼音頻編解碼器保持警惕也很好,因為它不需要標準化。只要有可能,就嘗試使用開源音頻編解碼器。
沒有留下試驗和失敗的空間。所有的公司對語音體驗都會有不同的需求,有時他們并不清楚語音體驗在實時和現實生活中是如何工作的。在構建應用程序或API的過程中,可能會出現很多問題,因此,當您越來越接近找到滿足企業需求的產品時,在構建系統時考慮到健壯性和靈活性是至關重要的。
作為一名開發人員,您希望為您服務的任何受眾創造最佳的語音體驗。比以往任何時候都更重要的是,確保您的語音數據是高質量的,您了解您的基礎ASR技術可以做什么,并創建一個能夠準確處理您需要的敏捷后端體驗。語音體驗的時機就在現在,通過盡早加入適當的API,您的語音體驗將蓬勃發展并適應客戶的需求。
聲明:版權所有 非合作媒體謝絕轉載
作者:Deepgram首席技術官Adam Sypniewski
原文網址:
https://www.speechtechmag.com/Articles/Editorial/Industry-Voices/Four-Pitfalls-to-Avoid-When-Building-Compelling-Voice-Experiences-148050.aspx