知物由學 | 人工智慧、機器學習和深度學習如何在網路安全領域中應用?

網易易盾發表於2018-05-04

“知物由學”是網易雲易盾打造的一個品牌欄目,詞語出自漢·王充《論衡·實知》。人,能力有高下之分,學習才知道事物的道理,而後才有智慧,不去求問就不會知道。“知物由學”希望透過一篇篇技術乾貨、趨勢解讀、人物思考和沉澱給你帶來收穫的同時,也希望開啟你的眼界,成就不一樣的你。

以下是正文:

本文作者:Guarav Banga

最近,我參加了由十幾位CISO(首席資訊保安官)組成的思想領導力討論會,我們就一系列網路安全問題進行了傑斐遜式的討論。討論會上提出的第一個問題就是大家如何看待人工智慧,以及是否在使用人工智慧。許多的與會者表示,他們的機器學習專案目前正在進行之中,但同時也強調,在網路安全領域並沒有使用到人工智慧技術。

人工智慧這個詞確實值得我們幻想,而且也符合我們對人類智慧、圖靈測試以及科幻電影的認知。可惜的是,正如我在CISO(首席資訊保安官)晚宴上所闡述的那樣,人們對“人工智慧是什麼”這個問題還存在著一些困惑,雖然近年來很多人都在提人工智慧,但人們的困惑並沒有得到解除。

本文由三部分組成,首先我們探討一下人類智慧與人工智慧的一些基本概念,並解釋當今比較流行的一些詞彙,包括人工智慧、機器學習、專家系統和深度學習之間的差異。最後,我們將討論人工智慧在網路安全應用中的真實情況,以及為什麼我們需要把它作為一種戰略工具。

什麼是智慧?

在進一步討論人工智慧這個話題之前,讓我們首先來定義什麼是智慧(譯者注:在英文中,智慧即intelligence)。智慧在廣義上是相當複雜的,在科學和哲學的許多方面都存在著激烈的爭論。但在本文中,我提供了下面這個定義。

知物由學 | 人工智慧、機器學習和深度學習如何在網路安全領域中應用?

對於智慧,我有兩個很重要的觀點。首先,許多科學家認為,人類的智慧根源於大腦如何在多種不同型別的感官資料中發現並儲存具有相關性的分層模式。例如,當你在捕獲的資料包或日誌檔案中看到某個網路名稱中存在“Gaurav-iPhone”的時候,你會很自然地想到這很有可能是你的朋友Gaurav的iPhone。你會無意識地將有關同事姓名的知識與有關常用裝置型別的知識聯絡起來。在生活中,你會不斷地無意識地去更新這兩個模型,並且會受到來自於多源的多媒體感官輸入的影響,這些源包括Apple的廣告、電視節目、電子郵件、文章以及走廊上的談話。你可以試著將這個過程與傳統的任意字串模式匹配程式做個比較,並且在輸入的靈活性和輸出的準確性上保持一致。

其次,智慧是一種預測,這是解決問題的一種方法。比如:你的眼睛正試圖看到它所能看到的一切,與此同時,大腦會根據它期望眼睛所能看到的東西來透過神經系統向眼睛傳送預測資訊。這種預測機制“填補”了本沒有意識到的東西,也就是為什麼你無法正常識別視覺盲點的原因。這種預測機制也讓你能夠在晚上漆黑一片的臥室裡行走而不會被絆倒:你的大腦向運動神經系統傳送訊號,為肌肉提供一個行走時所期望的模型。

常規的人工智慧與狹義人工智慧

人工智慧這個概念最初是由一些探索超越傳統程式的電腦科學家在20世紀50年代提出來的。他們受到了超智慧程式的啟發,該程式的智慧特徵與人類相似,比如“星球大戰”中的R2D2和C-3PO,以及Superman III中的超級計算機,這是常規的人工智慧。常規的人工智慧在今天並不存在。我們不知道如何模仿人類大腦進行工作,甚至不知道模仿它的一小部分智慧。

今天存在的人工智慧,我們可以稱之為狹義人工智慧。現在有許多很有用的產品使用到了狹義人工智慧,他們可以保質保量地執行一些任務,甚至比人類做得更好。例如亞馬遜的Alexa,它的輸入範圍是有限的,但同時結合了多種狹義人工智慧技術來完成某些任務,這讓人錯誤地認為它具有智慧。當前的國際象棋和圍棋世界冠軍也是狹義人工智慧的運用。這些狹義人工智慧系統擁有前面討論過的三個智慧元素:儲存特定領域的知識、獲取新知識的機制以及使用這些知識的機制。

當前也存在著幾種透過狹義人工智慧來解決網路安全領域問題的方法。雖然,能夠透過圖靈測試並取代安全團隊成員的安全機器人並不存在,但是,基於狹義人工智慧的工具能夠提前發現威脅和漏洞,並且能夠比大多數人更好地衡量安全狀況。

人工智慧、機器學習、專家系統和深度學習之間的區別

機器學習是歸納演算法的應用,是知識獲取過程的第一步,是在20世紀60年代探索人工智慧的過程中產生的。機器學習可以說是側重於“學習”的演算法。計算機不是透過編寫特定的計算機指令來完成任務,而是使用大量資料進行“訓練”,使其能夠學習如何執行任務。用於訓練的樣本可以由外部提供,也可以由知識發現過程的前一階段提供。

這麼多年來,出現了很多種機器學習演算法,包括決策樹、歸納邏輯、聚類、貝葉斯網路和人工神經網路。人工智慧與統計學密切相關,甚至相互重疊。

機器學習被認為是脫胎於專家系統,但又與之不同,專家系統是根據精心準備的知識體系(規則)透過基於模糊規則的推理來解決問題的。專家系統被吹捧為20世紀80年代人工智慧最成功的案例。專家系統背後的原理是,智慧系統從它們所擁有的知識中獲取能力,而不是從它們使用的特定推理策略中獲取能力。簡而言之,專家系統擁有知識,但並不完全會自學。它們需要人類程式設計師或操作員來讓它們變得更加聰明。但是,如果根據我們對智慧的定義進行判斷的話,它們並不聰明。

知物由學 | 人工智慧、機器學習和深度學習如何在網路安全領域中應用?

現在回到會學習的系統上來。機器學習很難,因為在多個維度的資料之間關聯模式是一個難題。這是一個大資料和計算密集型問題。人類大腦不斷地從大量的源並且跨越多個維度獲取大量的感官資料,慢慢地完善它的模型,然後才能達到網路安全團隊中熟練員工的智慧和專業知識水平。請設想一下一個大學畢業生大腦所接受的訓練資料量(標記的和未標記的)。在大多數情況下,適用於機器學習系統的訓練資料相當稀少,從而使得機器學習程式無法提供準確的結果。

人工神經網路和深度學習

近年來,我們看到一種被稱為深度學習的機器學習技術發展十分迅速,這是一種早期機器學習方法人工神經網路的演進,該神經網路是受到人類大腦結構的啟發而創造出來的。在神經網路中,每個節點都會為其輸入分配權重,以表示其正在執行的操作的正確與否。最終的輸出由這些權重的和決定。實際運用中的神經網路有許多層,每個層對應於神經網路要完成的各個子任務。

神經網路報告的輸出採用“機率向量”的形式,例如,系統可能會說該影像有90%的確信度包含給定的動物,該動物有25%的確信度是鱷魚。

直到目前為止,神經網路的研究幾乎沒有產生任何可以稱之為“智慧”的東西。預測輸出的確信度很低,因此並沒有什麼用。你可能已經想到,目前遇到的最基本的問題是,即使是最基本的神經網路,它的計算密集度也很高,建立和使用神經網路來完成複雜的任務是不切實際的。多倫多大學的GeoffreyHinton領導的一個小型研究小組一直在研究這個問題,他們將超級計算機的演算法並行化,並證明了這個觀點。

為了理解這個問題,我們舉一個計算機視覺和自動駕駛汽車方面的例子:識別交通停車標誌。當停車標誌檢測神經網路在訓練的時候,很可能會出現很多不正確的答案。例如,它在良好的能見度下可能就做得很好,但在惡劣的天氣條件下就不行。這個網路需要大量的訓練。它需要看到成千上萬,甚至數百萬的影像,直到各種神經元輸入的權重都調好為止,並且無論環境條件如何,它每次都能得出正確的答案。直到做到這一點,我們可能才會說這個神經網路已經學會了停車標誌的樣子。

這正是2012年吳恩達(Andrew Ng)在谷歌所做的事情。吳恩達的重大突破是增加神經網路中的層數和神經元的數量,然後透過執行海量資料來訓練它,這些海量資料主要是1000萬個來自YouTube影片的影像。深度學習中的“深度”表示這種神經網路包含了的大量層。谷歌大腦專案是一個在16000個CPU核上使用深度學習演算法訓練的神經網路。該系統已經學會了在YouTube影片中識別一些東西,例如“貓”,即使該系統從未被告知過“貓”是什麼。神經網路能“看到”貓這個視覺影像、包含單詞“貓”的視覺影像,以及包含單詞“貓”的音訊之間的相關性,並且將這種相關性學習為知識,就像一個小孩子一樣。

今天,基於深度學習的影像識別通常做得比人類更好,例如自動駕駛車輛、識別血液中的癌症和核磁共振掃描影像中的腫瘤。還有很多深度學習的變體得到了積極地改進和運用。有些模型可以進行堆疊以產生更高階的分類能力。以下圖片來自於亞馬遜Rekognition System的演示,深度學習技術能識別出影像和影片流中的物件、面部和上下文。

知物由學 | 人工智慧、機器學習和深度學習如何在網路安全領域中應用?

知物由學 | 人工智慧、機器學習和深度學習如何在網路安全領域中應用?

知物由學 | 人工智慧、機器學習和深度學習如何在網路安全領域中應用?

這樣的系統是否算是智慧呢?由於深度學習和其他先進的機器學習演算法確實在它們各自的領域進行了學習,並變得相當的博學,因此它們確實擁有了“智慧”的兩個關鍵因素。

這樣的系統是否知道如何運用它們的知識來解決問題呢?狹義人工智慧系統目前需要人工干預才能與現實世界的問題解決工作流程相關聯、與傳統系統以及其他人員進行互動。人們需要懂得將檢測跟蹤人員的交通攝像機與其他的面部檢測和影像檢測系統相融合,使用來自加利福尼亞DMV駕駛執照的影像資料和汽車牌照資料庫進行訓練。

如果在公共場所安裝這樣的系統,我們就能大大提高社群的犯罪打擊能力。試想一下,這樣還可能會產生倍增效應,我們的警察、安全人員和調查人員每天都有提高工作效率和速度的潛力!如果拿這種狹義人工智慧作為武器,這些特勤人員的工作效率會變得更高。

人工智慧(AI)、機器學習(ML)、專家系統和深度學習之間的關係也可以參照下面的維恩圖進行理解。

知物由學 | 人工智慧、機器學習和深度學習如何在網路安全領域中應用?

人工智慧、機器學習和深度學習在網路安全領域中的應用

網路安全問題可以理解為保證計算機系統的機密性、可用性和完整性。網路防禦主要包含以下三個方面:

1.     漏洞評估。

2.     設定和管理有效的安全控制。

3.     安全事件的處理和響應。

近年來,網路安全已經成為一個多維度問題。隨著業務的“計算機化”,漏洞的數量和種類急劇增加。安全研究人員和駭客們每天都會發現危害計算機系統的新方法。

讓我們從攻擊層面來說明這一點,比如業務應用程式和共享的密碼。企業使用者的雅虎或LinkedIn密碼可能與某個企業應用的密碼相同。因此,如果雅虎或LinkedIn遭到攻擊並且密碼被盜(並且沒有設定秘鑰),那麼你就會遇到了一個問題:駭客有100萬種方法來進入企業應用。

通常,防禦者並不知道密碼共享這個風險對他們的業務會有什麼影響。在這個時候,你最好希望你的雙因素身份認證配置正確並且有效。

知物由學 | 人工智慧、機器學習和深度學習如何在網路安全領域中應用?

攻擊者利用多個漏洞來攻破你的網路,然後跳轉到目標系統上,提升他們的訪問許可權,最後進行攻擊、洩露或破壞資訊。對於一個擁有一萬多人的機構來說,我們估計在攻擊層面上有超過1億個時變因素。

這不再是一個人的問題了,需要手工分析的資料實在太多了。

為了防止網路被攻破,防禦者必須要及時發現並解決這些漏洞,這通常涉及到對系統的重新設定或給系統打補丁、使用者培訓、安裝其他安全軟體、最佳化流程。

最後,雖然我們盡了最大的努力,網路還是被攻破了。安全管理員每天需要處理的安全報警數量一直都在增長。報警的處理涉及到從多個系統獲取資料,這相當乏味,而且很耗時。大多數機構都沒有足夠訓練有素的人員來處理每天發生的安全警報。

網路安全中的人工智慧

現在,想象一下,如果你擁有一套經過訓練的自學系統,該系統能夠自動而又連續地從各種各樣的源中收集有關企業的資料,並對數百個維度的模式進行關聯。該系統包含了下面這幾種智慧:

1.    瞭解企業資產相關的所有詳細資訊(配置、使用情況等等),包括所有裝置、使用者和應用程式,包括內部的和外部的。

2.    深入瞭解每個資產和使用者在業務上的重要程度。

3.    及時更新全球和行業特定威脅的最新知識,也就是說每天或每週最新的威脅。

4.    深入理解已經部署的各種安全產品和流程。

5.    綜合上述第1-4項中的所有資訊,計算你的有效風險,並預測最有可能被攻擊的地方和方式。

6.    提供規範性的建議,說明如何進行配置和增強安全控制和流程,提高網路彈性,但同時不會對業務運營產生負面影響。

7.    為安全警報的處理優先順序和處理方式提供儘可能多的參考資訊,並儘可能地減小對其影響。

8.    透過提供多種不同的視覺化介面和報告,向所有的利益相關者,比如使用者、業務所有者、安全操作員、CISO(資訊保安官)、審計員、資訊長、執行長和董事會成員提供相關資訊,解釋其預測和建議。

本文由網易雲易盾組織翻譯,譯者:雁驚寒

相關文章