更糟糕的是這次故障發(fā)生得太不是時候了。“我記得當(dāng)時有一場英格蘭對印度的板球比賽正在進(jìn)行,當(dāng)時正處于半場休息時間?!盋hakravorty這時意識到了事態(tài)的嚴(yán)重性,他從電話中得知:他的屬下所知道的全部故障信息就是,服務(wù)器機房中的每一個機架都處于帶電狀態(tài)?!澳菚r候我開始擔(dān)心,工程師無法接觸帶電狀態(tài)的機架,這意味著沒有人可以估計破壞的程度?!?/DIV>
這種情況符合他對危機的兩個定義之一?!拔C之一是當(dāng)業(yè)務(wù)被中斷的時候,你卻不能清楚地了解到需要多少時間來修復(fù)?!辈恍业氖牵@次故障也符合他對危機的第二個定義?!拔覍ξC的另一個定義是,當(dāng)企業(yè)必須要去做某件事情的時候,卻因為IT故障或系統(tǒng)失靈而無法做?!?/DIV>
公司業(yè)務(wù)對來自IT系統(tǒng)支持的需求萬分緊急。當(dāng)時正處于半場報道時間,各方面的人都在等待系統(tǒng)的恢復(fù)?!肮芾韺佣伎殳偭耍覅s不能告訴他們我什么時候能讓系統(tǒng)恢復(fù)正常,因為我不知道問題所在。”
與此同時,無情的電老虎依然在“烘烤”著他的系統(tǒng)?!白钕仁俏业腟AP服務(wù)器,然后是郵件服務(wù)器、域名服務(wù)器、內(nèi)網(wǎng)服務(wù)器和網(wǎng)站服務(wù)器,最后所有25臺服務(wù)器全部發(fā)生故障?!彼硎?。
后來電力工程師發(fā)現(xiàn),需要4到5個小時才能停止電老虎繼續(xù)毀壞服務(wù)器?!暗?,當(dāng)他們的任務(wù)完成后,我的問題卻剛剛才開始。SAP服務(wù)器被摧毀了,而我的隊伍卻對SAP一無所知。”他解釋道。IT團隊不得不開始聯(lián)系HP公司,由其工程師遠(yuǎn)程通過電話來指導(dǎo)他們完成對百事可樂SAP系統(tǒng)的恢復(fù)。
整個恢復(fù)過程大約花費了9個小時,公司的18個頂級系統(tǒng)都在等待這個系統(tǒng)。由這個事件所帶來的損失主要來自于兩方面:延遲了報道和浪費了時間;而且導(dǎo)致百事可樂銷售業(yè)務(wù)的中斷,因為系統(tǒng)無法打印發(fā)票。
“那個時候我沒有預(yù)見到這種情況的發(fā)生。但是現(xiàn)在我可以了,”他自我挖苦地表示。“可以肯定的是,我們從中學(xué)習(xí)了很多。經(jīng)歷過那次事件,我了解到災(zāi)難恢復(fù)的重要性,而且我們也創(chuàng)建了危機處理指南?!?/DIV>
如果現(xiàn)在類似的情況再次發(fā)生在Chakravorty身上,他可以大大減少破壞的程度。因為這次經(jīng)歷擦亮了他的眼睛。
點評:從Chakravorty的經(jīng)歷來看,很多企業(yè)的CIO都是真正經(jīng)歷了IT危機后,才對制定合理的危機響應(yīng)步驟有了真正的重視,可謂“不經(jīng)一事不長一智”,不過這樣付出的學(xué)費可能會比較高昂。
IT168