如今,機器學習已經成為數據庫及數據安適領域中繞不開的核心技術。機器學習可以提供人力無法達成的大規模分析和收集數據的能力,可如果缺乏有關待解決問題的專業領域知識,機器學習技術自己仍然無法提供有價值的信息。就數據庫內部威脅識別而言,最大的挑戰不在于通過機器學習輸出違規告警,而在于如何確定典型用戶或系統的數據拜候何時出現異常,以及哪些情況是有危害的,哪些僅僅是異常情況。
日前,Imperva首席技術Terry Ray對于機器學習在數據安適領域的有效應用問題給予了深入的解答,揭秘了ImpervaCounterBreach解決方案如何能夠超越傳統的策略設置方案,準確識別不成預知的數據拜候,并掩護數據拜候的安適。
Terry
Ray首先由機器學習的類型區分入手,把機器學習分為監督式學習和無監督式學習。監督式學習可以完成圖像識別、標記分類等功能,需要預先設定針對性的人工策略,對于不成預知的事件無能為力。而Imperva解決方案中采用的無監督式學習,更接近大眾心目中的“人工智能”,增加了異常檢測、檢索、主題抽象等基本技術,并綜合了專業領域知識、數據收集和解析、制定基準和辨別敏感數據的能力,具有更高的自動化屬性,極大地減少了對于人工的依賴性。
為了讓機器學習的結果更有意義,Imperva特別使用了聚類的技術。“聚類使得我們可以把許多差別的信息聚集在一起,我們再把其他的數據和我們擁有的領域專業知識結合在一起,切實使得這些數據變得有價值并與語境關聯。”Terry
Ray體現,“真正重要的關鍵和差異在于,Imperva把我們的專業領域知識和機器學習進行了整合。”
專家領域知識是我們持續在數據庫、文件、應用系統上年復一年累積的經驗,這些經驗可以幫手我們解決人力無法處理過大數據量的問題。按照Terry
Ray的估計,“在大多數情況下,大多數人在告警超出正常量5%的時候就已經無法忍受了,,更不消說去查看那些生成這些告警的原始數據了。”
與此同時,“我們不但僅需要收集大量數據的技術,同樣還需要能夠準確的解析這些數據。”差別的數據庫使用差別的語言,必需有能力解析每一種語言,才可以按照解析后的數據創建有效的模型。Terry
Ray介紹說,Imperva從事數據庫辦事器、文件辦事器、應用端的拜候數據解析已有 14 到 15 年的時間,長年累積的經驗,令他們可以識別 30 種差別的數據庫語言和文件語言,從而無礙地完成數據解析。
除了數據解析外,還需要有判斷的基準,幫手我們辨別敏感數據。Terry
Ray說:“我們建立了基準,就可以基于基準來發現各種異常。基線的異常是識別數據違規的基礎。它告訴我們有什么分歧錯誤了。”在制定基準的方面,Imperva不但單獨不雅觀察用戶或數據,而是把二者結合起來。Terry
Ray模仿機器學習的口吻舉例說:“看,我明白這是一個人類用戶,而這個人類用戶正在觸碰只有應用程序會觸及的數據。”這不是一個人工的策略,而是人類用戶與數據交互過程中由機器學習確定的模式。
能夠確定某人如何與數據交互,何時與數據交互,以及與數據交互的原因是這里的關鍵。Terry Ray再次強調,這一切的基礎都是機器學習和Imperva專業領域知識的結合。“如果你沒有機器學習來幫手你,那么由人類來回答這些問題幾乎是不成能完成的。”
Imperva
CounterBreach解決方案的獨特優勢,正在于其不再需要按照客戶的需求而人工設定策略。“但是誰知道你所有的數據庫和你所有的文件辦事器的使用情況呢?答案是:沒有人。所以我們使用CounterBreach自動化地為你完成這樣的工作。”Terry
Ray總結說:“引入自動化的價值,正在于它能讓我們理解和預測那些不成預測的東西。”