CTI論壇(ctiforum.com) (編譯/老秦): 語音供應商正在探索新的途徑來擴展其開發工具的使用。增強的建模精度,改進的后端集成,對其他接口的擴展以及更開放的系統是2019年的重點領域。2020年的重點是標準接口的開發和可移植性的提高。
年度回顧
在構建解決方案時,語音供應商致力于為用戶提供公司應用程序的直觀界面。亞馬遜于6月份宣布的Alexa演示語言就是一種用于用戶界面設計的工具集。它具有技能個性化功能,使開發人員可以使用Alexa應用程序捕獲的語音配置文件來創建個性化技能。語音配置文件可解決首選項,記住設置并區分用戶。
改善語音識別是人們持續關注的領域。十月份,亞馬遜在其Alexa技能套件中添加了三套新工具。此開發工具包可幫助公司建立自助服務應用程序。其中兩個功能是"自然語言理解(NLU)評估工具"和"話語沖突檢測",旨在提高語音模型的準確性。前者測試成批的話語,并將語音應用程序的自然語言處理(NLP)模型對它們的解釋與期望進行比較。為了提高結果質量,NLU評估工具依賴于消費者通常說的命令,而不是由交互模型構建的樣本話語。結果,系統通過識別有問題的話語來隔離訓練區域。該工具還支持回歸測試,允許開發人員在向語音應用添加新功能后創建并運行評估。
NLU評估工具使用生產中的數據以匿名的高頻現場話語進行測量,該數據旨在幫助調整對語音模型所做的任何更改的準確性。
話語沖突檢測功能可以檢測偶然映射到多個意圖的話語,這是可能會降低NLP模型準確性的一個因素。該功能會在構建每個模型時自動運行,并且可以在發布應用程序的第一個版本之前使用,也可以隨著時間的推移添加意圖而使用。
除了前端開發之外,在過去幾個月中,還強調了與后臺業務應用程序的集成。9月,Nuance Communications擴展了Nuance智能互動平臺的功能,該平臺在市場營銷業務流程中增加了語音功能。開發環境現在具有連接到:
- 消息服務,以便公司可以跨多個渠道自動化和改善人工協助的客戶參與度;
- 座席AI服務,旨在為座席和主管提供相關的實時客戶信息;
- 安全和生物識別服務,以改進身份驗證并防止欺詐;
- 后端集成,因此該平臺可與提供所需信息的第三方認知引擎和數據源一起使用。
數據分析已成為第三方開發人員關注的另一個領域。亞馬遜增加了一個Get Metrics API,該API與第三方數據聚合平臺一起使用,允許開發人員評估各種指標,例如唯一客戶。它還支持創建監視器,警報和儀表板,以突出可能影響客戶參與度的更改。
語音開發平臺傳統上具有不同程度的開放性。例如,蘋果公司一直致力于將其系統與自己的解決方案聯系在一起,這給開發人員使用替代產品帶來了挑戰。十月份,供應商通過允許Siri使用第三方應用程序來打開其系統。用戶可以調用第三方應用程序(如WhatsApp)來代替Apple解決方案(如其自己的Messages應用程序)。但是,第三方將需要將該功能添加到其軟件中。
展望未來
對于語音開發人員而言,可移植性一直是一項長期挑戰。"語音應用程序開發人員發現,每當他們將軟件從一個語音引擎轉移到另一個語音引擎時,他們都必須重寫軟件的大部分內容,"Conversational Technologies負責人,萬維網聯盟多模式交互工作組主席Deborah Dahl指出。
可移植性涉及許多問題。舊版系統旨在在數據中心的服務器上運行。許多新系統具有云優先設計。將軟件從一種遷移到另一種是一項復雜的工作。Nuance的智能參與平臺具有與云無關的靈活性,允許組織在Nuance的托管,公共和私有云中部署相同的解決方案。
設備支持是另一個重點領域。Nuance全渠道解決方案高級副總裁Tony Lorentzen表示:"我們將繼續看到語音成為新界面,越來越多的設備將啟用語音功能。"
然后,這些解決方案必須與傳統解決方案集成。亞馬遜的Alexa演示語言使開發人員可以為帶有屏幕的設備(例如臺式機和筆記本電腦)創建Alexa技能。
另一個可移植性問題是將軟件從一個系統遷移到另一個系統。從歷史上看,市場缺乏標準接口,因此企業和第三方每次使用不同的語音引擎時都必須完成共同的工作,例如分配存儲。
十月份,Nvidia推出了Jarvis,這是一種多模式AI軟件開發套件,該套件將語音,視覺和其他傳感器整合到一個系統中。該工具支持用于構建,訓練和部署GPU加速的人工智能系統的工作流,該系統可以結合手勢和眼睛運動等視覺提示以及語音來建立上下文。
9月,亞馬遜牽頭成立了語音互操作性計劃小組,這是一個創建標準語音開發接口的計劃。該小組設定了以下四個目標:
- 開發與其他解決方案一起使用的語音服務,同時保護客戶的隱私和安全;
- 構建語音功能的設備,通過多個同時的喚醒詞來促進選擇和靈活性;
- 發布使更容易在單個產品上集成多個語音服務的技術和解決方案;
- 加速機器學習和對話式AI研究,以改善語音服務的廣度,質量和互操作性。
包括百度,微軟,Salesforce.com和Verizon在內的30多家公司支持這項工作。蘋果和谷歌是缺席者。該小組的第一批成果有望在2020年到來。
聲明:版權所有 非合作媒體謝絕轉載
作者:Paul Korzeniowski
原文網址:https://www.speechtechmag.com/Articles/Editorial/Features/The-State-of-Speech-Developer-Platforms-139108.aspx