一、背景介紹
傳統的呼叫中心主要依靠單一的電話呼入方式為客戶提供簡單的服務,隨著IT技術和通訊技術的飛速發展,這種單一的電話方式已經不能滿足客戶的需要,為順應時代發展,客服系統涉及到的產品、技術和服務模式也在不斷的改革創新,現在的呼叫中心可以通過WEB、微信、APP、文字、視頻、傳真等多種渠道聯絡手段為客戶提供服務,以此更好的滿足客戶不斷變化的深層次需求。依托大數據、云計算和互聯網技術的快速發展,人工智能技術應運而生,并被快速應用到呼叫中心領域,智能語音、機器人、語音識別、語義分析等產品的出現,有效降低了客服中心的人力成本,新技術、新產品引入的同時,客服系統的維護變得越來越復雜,目前各大銀行的客服系統涉及到的產品大約均在20個左右,維護難度之大可想而知,對于客服系統運維人員來說也面臨著巨大的挑戰。
二、客服系統監控發展歷程
客服系統的特點是,廠商多、產品多、專有設備多,監控手段單一,G行針對客服系統的監控經歷了三個階段:
第一階段:基礎監控+人工巡檢
客服系統建設初期,僅包括應用、系統、中間件、數據庫等標準監控,專有設備只能通過ping的方式獲取主機狀態,對于專有設備的資源占用情況運維人員只能通過人工巡檢的方式查看,設備運行風險較高。
第二階段:腳本輔助監控
通過腳本的方式,獲取部分指標寫入臨時文件,統一監控平臺再通過定期輪詢的方式查看文件內容,發現關鍵字,再通過短信方式推送告警給運維人員。腳本輔助方式雖然增加了中繼組狀態、媒體資源、系統資源使用率等重要指標監控,但覆蓋范圍有限,獲取方式不靈活,實效性較差。
第三階段:專業平臺監控
通過代理、接口、syslog、snmp等采集方式收集日志與告警信息,實時展示客服系統運行狀態和關鍵指標數據。監控采集方式由被動的輪詢式告警轉變為主動推送的流式告警,專業監控平臺雖然可以解決80%的告警需求,但還有一些特殊化的需求還不能覆蓋,比如陡增突降告警、同比環比等復雜的需要經過統計運算的告警、智能化故障診斷及業務關聯影響分析等。
三、客服智能監控分析平臺建設
G行目前正在進行客服智能監控分析平臺建設,在平臺建設之前,G行從業務視角、科技運維等角度深度挖掘客服智能監控要解決的核心問題:
從業務視角考慮,客服智能監控分析平臺需要解決的核心問題主要有如下幾個方面:
- 支持關鍵KPI指標和運營能力指標實時展示,包括坐席KPI指標、渠道話務量統計、區域話務量統計等
- 支持話務量按日預測及實時矯正二次預測功能
- 支持客服重點交易、熱點業務、投訴、輿情等數據實時展示
- 對惡意呼叫進行核實與屏蔽,可實時展示異常掛機數據,分析掛機原因
從科技運維角度考慮,客服智能監控分析平臺需要解決如下問題:
- 覆蓋客服產品監控盲區,涉及PBX、IVR、CTI、媒體網關等特殊設備的監控,監控指標包括中繼利用率、媒體資源使用率、IVR并發量、CTI鏈路消息數、CTI鏈路狀態、媒體網關狀態等
- 實現對客服人工智能產品的監控,包括ASR、TTS、機器人等產品的并發量、許可使用量等數據的實時統計與展示
- 為容量管理提供有效的、準確的數據支撐
- 指導運維人員快速定位、快速恢復生產問題
- 支持對歷史發生的事件進行復盤、推演、溯源
- 智能診斷、智能分析故障對業務的影響
客服智能監控分析平臺框架
基于上述監控體系指標和功能需求,整體框架示意圖如下所示:
客服智能監控分析平臺自下而上的架構如下:
- 數據采集層:負責監控分析數據采集與預處理策略執行。數據采集層支持多協議,以實現異構數據源的采集。采集模塊支持分布式水平擴展,以滿足大規模、高時效數據的采集需求。
- 數據存儲層:采用高速緩存中間件Redis實現對復雜或操作代價較高的實時數據進行緩存,以保障實時數據的高頻訪問效率。采用Elasticsearch實現離線數據存儲,支持高吞吐數據寫入以及大規模數據存儲,存儲和查詢性能可線性擴展。配置數據則采用關系型數據庫Oracle實現持久化存儲,提供事務型數據處理。
- 分析與計算層:實現分析規則和算法計算。分析規則包括告警觸發規則、告警處理規則、容量分析規則、關聯分析規則等。通過模式匹配引擎分析流式數據中的時序與依賴關系,實現數據關聯分析。匹配規則可動態配置以適應復雜多變的業務需求,通過歷史數據的對比和分析,實現閾值的動態調節。
- 業務展現層:實現業務功能展示。通過Spring Cloud微服務實現業務模塊標準化,支持按需彈性擴展,通過Spring Security提供統一的權限和登錄控制,通過Portal提供視圖的組件化管理,實現業務視圖的靈活定制化。
采集與處理流程
隨著業務的發展和智能化平臺的引入,監控對象的分類和數量越來越多,各類數據,如指標數據、分析數據、日志、告警等更是指數級倍增。因此,一方面數據采集與處理流程應實現各類數據的統一轉譯和結構化處理,使得數據可識別、可使用;另一方面客服智能監控平臺除了關注運行數據外,還需要深入到運營業務流程中,匯集整合客服業務運營和系統運行的各類數據,形成完備的數據集合,完成數據互聯。采集與處理設計方案需具備低耦合、高內聚、彈性擴展等特點,才能滿足高并發、高時效、大規模數據處理的需求。
分析模型與計算
客服智能監控分析平臺中的分析模型和計算能力是實現智能運維的關鍵點,分析模型決定了監控分析結果的有效性和深度,計算能力是保障智能監控分析目標得以實現的首要因素。從話務異常分析、容量分析、故障關聯影響分析、故障復盤推演等方面設計模型,并不斷優化,達成智能化監控的目標。
場景實踐與思考
1、告警關聯分析
客服系統是一個復雜的有機體,每個組件的故障不再是孤立的事件,有可能影響到業務的可用性或者客戶的訪問體驗,因此基于組件間的業務依賴和數據流向構建組件關系圖譜,可實現故障的關聯影響分析,判斷出故障的影響范圍和程度,為運維工作的處理決策提供數據支撐。
當組件出現故障時,依據組件間的關系類型,系統可以判斷出關聯組件的可用性或容量是否會受到影響,可計算出此影響是否會傳導到業務層或其他組件上。
2、運營數據關聯分析
運維工作的目標是保障業務的可用性和連續性,當業務存在異常時,可基于客服系統正常運行模型的匹配來識別。以呼叫日志分析模型為例,當運營監控中顯示隊列排隊人數較多時,有可能是坐席比較繁忙,人手不夠導致,但也有可能是客服系統自身原因導致呼叫無法正常分配給坐席,我們可以通過呼叫日志分析模型檢測電話呼叫是否存在異常,當呼叫日志流流入計算框架時,檢測到與正常呼叫日志不匹配時,則可判斷為客服系統異常。
3、故障復盤與推演
故障發生時,運維人員大都是優先處理故障,盡快恢復系統正常使用,如果事后不對故障進行復盤分析的話,再次發生故障時,運維人員仍然不能快速識別出同類故障,影響故障處置效率。智能監控分析平臺在告警發生時,不但可以識別出故障并生成告警信息,還會保留故障相關的周邊信息,以時序方式記錄故障的上下文場景和組件間關聯告警信息,并支持以電影放映的模式,將故障發生前后的各種相關數據進行回放和推演,以便發現故障發生的規律,優化故障分析模型,為運維人員快速定位故障原因提供工具支撐。
下一階段建設目標
數據是一切運維的基礎,也是智能監控分析和數據驅動運維的關鍵資源,未來幾年,客服智能監控分析平臺的智能化程度將會持續加深,數據也將變得更加連貫和立體。客服智能監控平臺下一步將在業務探測、趨勢預測、動態閥值、智能告警方面進行更深入的研究與嘗試。