(1)用戶(語音) -大于語音識別:電話機器人不能識別語音,第一步驟是將用戶發出的語音轉換為字符,該步驟需要依賴于語音識別技術。 僅僅是語音識別,是一種復雜且需要持續投入的技術,因此電話機器人的制造商很多,使用這些大制造商的語音識別技術。
(2)語音識別–(文本)–>自然語言理解:此時,用戶說的話已經通過語音識別轉換成了文字,而電話機器人拿到文字后,需要利用自然語言理解,來識別用戶的意圖,通俗的來說就是理解用戶在講什么。
(3)語言識別–(意圖)–>對話管理:這時候,機器人已經識別了用戶的意圖,下面電話機器人就需要決定改如何回復用戶的問題了。比如說是繼續按照正常對話流程往下走,還是需要先回答用戶的疑問?抑或者需要重新把剛才說的話再說一遍?
(4)對話管理–(觸發)–>預置話術:此時的機器人已經知道該回復用戶的具體內容了,這時候就該組織回復的語言了。而一般來說,這些話術都是預先設置好的,等需要用到這塊內容的時候,從這塊內容對應的話術中抽取一條出來回復就好。在回答同一個話題時,話術不重復,給用戶更好的體驗。
(5)事先講話- (調用) -大于人工錄音:當然,如果知道機器人需要回答哪個講話,就必須調用與這個講話對應的錄音。 結果,我們在打電話。 此時,為了使營銷效果更好,大多數客戶都選擇播放真人錄音。 結果,這個效果更真實。 正因為如此,人工錄音的效果,很大程度上左右著前端用戶接電話時的體驗。