最近大數據”已經取代了云技術”,成為了新技術的熱門話題,各類大數據”的書籍層出不窮,文章更是琳瑯滿目,仿佛你要是不和大數據”扯上點關系,你就OUT了!筆者對這些文章也略有涉獵,但覺得掛著大數據”虛名者多,而真知卓見者寡。為了讓大家更容易理解大數據的內涵,我首先簡單地介紹一下大數據的定義和背景。
麥肯錫的報告是這樣定義的:大數據是指無法在一定時間內用傳統數據庫軟件工具對其內容進行抓取、管理和處理的數據集合(Big data refers to datasets whose size is beyond the ability of typical database software tools to capture, store, manage, and analyze.)。
大數據這個概念又是怎么來的呢?2011 年5 月,EMC 舉辦了一次主題云計算相遇大數據”的大會,首次拋出了大數據”(Big Data)的概念;6 月,由EMC 贊助、IDC 編制的年度數字宇宙研究報告《從混沌中提取價值》 (Extracting Value from Chaos) 發布;緊接著,IBM、麥肯錫等眾多國外機構發布大數據”相關研究報告,予以積極跟進。
從背景我們可以看到EMC(全球最大的外置存儲硬盤供應商)是推動大數據”概念的主謀,他這么做當然是想多賣點硬盤,這種軟廣告式炒作不但沒引起反感和吐槽,反而被社會各界認可與接收,也是跟其社會背景密不可分。近年數據產生成本急速下降、人類產生的數據量正在呈指數級增長,其中80%以上都是傳統數據庫無法處理的非結構化數據,這些數據到底有多大呢?根據IDC 的監測,全球在2010 年正式進入ZB 時代,預計到2020 年全球將總共擁有35ZB 的數據量,如果把35ZB 的數據全部刻錄到容量為9GB 的光盤上,其疊加的高度相當于在地球與月球之間往返三次……在這么直觀的比喻面前,任何語言都蒼白無力了!
也許你會說大數據這種現象不用說,我們早就看出來了,不就是數據大么,能給我們的社會帶來什么實質性的影響啊,或者我怎么沒看到它的應用?關于大數據的應用,我在這里就不贅述了,市面上各種大數據”的書已經談了很多案例。我只想說:剖析歷史可以洞察未來。”幾年前說云技術”還很遙遠的那些人卻在將自己的文檔、照片、視頻上傳至iCloud”,使用著搜狗云輸入法”,登陸Dropbox、Yelp、Zynga等網站(這些網站正托管于亞馬遜的云平臺”) ……那片飄在天上的云”早已不是觸不可及”。
根據麥肯錫全球研究所的研究報告《Big data: The next frontier for innovation, competition, and productivity》,大數據將給醫療服務、公共管理、定位服務、零售和制造各個行業帶來顯著的應用價值,例如對美國的醫療服務業每年創造價值3000億美元,約0.7%的年增長率,對美國制造業最高可下降50%的產品研發和裝配成本。麥肯錫的這份報告詳致地闡明了大數據對各行各業的利好,推薦大家閱讀,我這里只談大數據對客戶服務領域的影響。
在云時代,淘寶推出了一種極具云”特色的客戶服務模式——云客服,云客服把社會上喜歡幫助人且有能力幫助人的淘寶人聚集在一起,使客服人員在家里或學校對客戶提供遠程服務,實現了HO(Home Office,駐家辦公)”,并充分利用了客服人員的零散時間,不僅降低了成本,還提高了效率。當然,這個云”并不是真正意義上的云技術,只是一種概念和噱頭,而在大數據時代,又將會給客戶服務帶來哪些商業價值呢?
我認為大數據將對客戶服務帶來一次變革,給客戶服務帶來極大的想象空間和無限的發展前景,甚至可以使客服部門從原來的成本中心(高成本、低價值)轉型為利潤中心(提升品牌價值、創造收入)。在這里我舉三個例子跟大家進行探討,展望客戶服務的未來。
一、智能語音客服
目前通信運營商等在客服領域比較先進的企業已經實現了智能文字客服,通過文字識別技術和智能匹配算法對通過短信和網站文字客服提出的服務訴求智能匹配答案,不需人工判斷。要實現智能語音客服,也要通過識別和匹配這兩關。
我們先說說識別吧。早在Siri之前就已經有很多語音識別工具問世,最早的基于電子計算機的語音識別系統是由AT&T貝爾實驗室開發的Audrey語音識別系統,它能夠識別10個英文數字,現在AT&T的語音系統 Watson已經可以實現在線德語和英語的實時口譯。以現在的技術,語音的識別依然比較困難,主要面臨的難點有兩個:
1.算法
算法是軟件的核心,目前的語音識別算法使用的語言模型仍是一種概率模型,還未發展成以語言學為基礎的文法模型;算法不突破,其效果就無法取得突飛猛進的進展。算法的優化不是一朝一夕的事情,需要逐步進行,尤其是語音這種非結構化數據(不便用數據庫二維邏輯表來表現的數據),但隨著大數據分析技術(用于非結構化數據的管理分析)的發展,也會對新算法開發帶來福音,一些核心算法如特征提取、搜索算法和自適應算法也都在一步步改進,且隨著數據源的不斷豐富,算法的識別效果也越來越精準。
2.適應性
由于方言、語氣、環境和音色等因素的影響,限制了語音識別算法的效果,這就需要語言識別系統具有一定的自適應性,不同口音、方言的識別都需要以一個龐大的語音數據庫為基礎,對這些非結構化數據的管理分析就更加指望大數據技術了。至于排除環境噪音、音色等因素,個人感覺要依賴半導體傳感技術的進步,留待硬件領域的專家進一步探討。
接下來就說到匹配了。目前匹配的算法已經相對成熟,也許和大數據技術沒有直接聯系,不過其準確性也有賴于數據源的豐富程度,同時要在不斷產生的交互數據”中動態調整匹配結果。
綜上所訴,隨著數據源越來越多、大數據技術的不斷進步,語音識別系統也在持續完善之中,說到底,算法依然是核心,而數據則是基礎,對于這類非結構化數據,也許傳統的數據庫技術Handle不住,但大數據技術卻大有可為。相信不久,語音識別的技術的突破不僅可以實現智能語音客服,還將變革人與物之間的交互方式。
二、語音文本轉換
因為這個功能的核心也是語音識別,所以大數據技術對轉換準確度的保障支撐就不用再說了。之所以單列出來談,是因為其對客戶服務別有一番作用。
對于呼叫中心而言,客服人員與用戶的通話都是要錄音備份的,這些語音數據可真的不小,僅以廣東移動為例,廣東移動客服中心每年就要新增約60T的數據存儲,這個體量對于一般的企業來說已經是大數據”了。據悉這些數據是用磁帶來保存的,而且這些要保存幾十年不能銷毀,想想到時候光這些磁帶所占用的房間租金就是不少錢,更何況其他成本,而如果能將這些語音準確地轉換成文本,文本存儲所占用的空間就小得多(一個移動硬盤都可以存儲一個圖書館的數據量了),存儲成本直線下降,不僅實現了低成本高效,對自然環境也是一種利好。
有人會質疑這些錄音是為了便于追溯留證,不是原始的錄音記錄,客戶不認賬怎么辦?當然,我要聲明不是所有錄音都要轉換成文本,對于客戶投訴或辦理業務的來電仍然保留錄音記錄,一則便于企業對客服人員的服務態度(說話語氣還是要靠語言才能判斷)和質量進行抽檢,二則備份留證。而對于更多的咨詢或查詢類來電,通常不必留證。將這些語音轉成文本之后不僅減少了存儲空間,這些文本數據還可用于后續的信息挖掘,用來改進服務或發現商機,畢竟文本的信息分析要比語音的容易得多。
三、客戶信息挖掘
在互聯網時代,除了用戶數、營業額等,數據已經被認為是未來的核心資源。我記得馬云曾說過類似這樣的話:你知道全國哪個省份的女人胸圍最大么?你知道哪個城市的男人最喜歡用什么牌子的衣服、香水么?你們都不知道,淘寶知道。”每年有多少企業關注《淘寶用戶行為報告》,以圖挖掘出一些數據來提升自己的銷量,從這里,數據的價值可見一斑。
而客服部門作為企業前端的客戶直接接觸窗口,每天都可以從客戶身上獲取大量的信息,甚至可以在客戶比較滿意的時候主動獲取一些愛好、職業等信息,積少成多,某些時候這些數據將為企業帶來巨大價值。對客戶信息挖掘的應用,我在此舉兩個簡單的例子:比如通過數據的挖掘可以發現哪些用戶是高爾夫球愛好者,進行精準營銷,避免盲目營銷導致的客戶反感及投訴;再如隨著定位技術成為手機標配,個人位置信息已經成了客戶服務領域待被開采的金礦,國外運營商已經開始分析這些個人位置信息的數據并將洞察結果面向政企客戶提供,這些位置信息可以為企業的實體店、營業廳選址提供依據。
當然,我個人也反對大數據把我們的個人隱私都記錄下來并為他人所用,本文僅是從企業的角度談談大數據帶來的影響,尤其在客戶服務領域,我認為大數據帶來的是無限的可能,更多的可能還有待各位去不斷探索。