譚曉生(360首席隱私官)講資料安全

小旋風柴進發表於2017-05-02

“中關村大資料產業聯盟”推出“大資料100分”論壇,每晚9點開始,於“中關村大資料產業聯盟”微信群進行時長100分鐘的交流、探討。

【大資料100分】譚曉生:大資料安全和利用大資料解決安全


主講嘉賓:譚曉生

主持人:中關村大資料產業聯盟 副祕書長 陳新河

承辦:中關村大資料產業聯盟


嘉賓介紹:

譚曉生 360公司首席隱私官、副總裁、2013中國網際網路安全大會主席。全面負責360公司網站技術、技術運維、企業安全、雲查殺、雲端儲存等業務的團隊管理。歷任3721技術開發總監、雅虎中國技術開發總監、雅虎中國CTO、阿里巴巴雅虎中國技術研發部總監、MySpace CTOCOO等職務。


以下為分享實景全文:

譚曉生各位朋友,晚上好。今晚的話題是網路安全、大資料.


201405月:Ebay要求使用者修改密碼,爆使用者資料洩漏

201404月:Java Struts 2漏洞還魂

201404月:Open SSL“心臟流血”漏洞

201403月:攜程儲存並洩露使用者信用卡CVV碼事件

201401月:DNS故障,國內多家網站域名解析受影響。

201310月:慧達驛站軟體漏洞導致連鎖酒店資料庫拖庫事件

201308月:.cn域名根伺服器被攻擊,.cn域名解析緩慢或中斷

201307月:Java Struts 2報高危漏洞,傳某著名電商被拖庫,超過5億使用者資訊被盜

201303月:韓國3家電視臺、2家銀行系統癱瘓

201206月:LinkedIn證實部分使用者密碼遭洩露需重置密碼

201204月:VMware確認原始碼被竊

201204月:DNSChanger肆虐全球400萬臺電腦被感染

201201月:賽門鐵克公告證實兩款企業級產品原始碼被盜

201201月:美國電子商務網站Zappos遭黑 2400萬使用者資訊被竊

201112月:CSDN使用者資訊洩漏,多個網站遭遇類似情況

201109月:日本三菱旗下軍工企業遭黑客入侵

201104月:索尼PSN平臺7700萬使用者資料洩漏

2010年:伊朗核電站遭受震網病毒攻擊,伊朗核計劃被延遲3


先給大家看看最近幾年出的部分網路安全事件,2014年尤其不太平,大的安全事件一個月都會有好幾次。


去年的Java Struts2漏洞導致國內某大電商資料庫被拖,5億多條使用者記錄洩露,這些事兒連曝光都曝光不出來。


結果前幾天Java Struts2又出漏洞,OpenSSL的漏洞後面可能還會出,我們閱讀了Open SSL的原始碼,對程式碼質量比較擔憂


去年國內網站安全情況資料如下:

65.5%的網站存在漏洞

29.2%的網站存在高危漏洞

8.7%的網站被篡改

33.7%的網站被植入後門


這是對120萬網站進行安全掃描的結果,中國的合法網站有300多萬,我們經過授權,掃描了其中的1/3


而國家與國家之間的網路對抗由來已久。


據《紐約時報》報導,日前愛德華·斯諾登(Edward Snowden)曝光的一份檔案顯示,多年來美國國家安全域性(NSA)一直在對中國電信巨頭華為採取祕密行動,行動內容包括入侵華為總部的伺服器,監視華為高層的通訊等等。據稱NSA把這次行動命名為“狙擊巨人”(Shotgiant),早在2007年就已經開始。


Stuxnet(震網病毒)也可以定性為國家之間的攻擊——美國與以色列對伊朗的核設施的攻擊。


過去20年間資訊保安經歷一個變遷過程,從一開始的病毒、蠕蟲,後來的木馬,到釣魚欺詐、Web攻擊,到現在以情報偷竊與破壞為重點的APT攻擊


安全防禦遇到空前挑戰


過去的防禦武器包括:防火牆、IPS(入侵防護)、IDS(入侵檢測)、UTM(統一威脅管理)、防病毒、終端安全管理等


但面對社會工程學、漏洞利用等攻擊手段,過去的網路安全防禦手段的有效性打了很大折扣。


我們測試過幾家主流廠商的IPS10個遠控木馬樣本,平均只能檢測出來5個,而且據說已經是比較好的指標,說一般的測試值只有3個,即可以檢測及攔截30%左右的攻擊。


這些防禦手段依然有用能擋住一部分畢竟比沒有一點格擋要好,但,需要想辦法提高防禦的效率


來說說什麼是漏洞吧

微軟對漏洞的定義:


即使使用者在合理配置了產品的條件下,由於產品自身存在的缺陷,產品的執行可能被改變以產生非設計者預期的後果,並可最終導致安全性被破壞的問題,包括使用者系統被非法侵佔、資料被非法訪問並洩露,或系統拒絕服務等。我們將這些缺陷稱為安全漏洞


Exploit的英文字意為“利用”。在電腦保安術語中,這個詞通常表示利用程式中的某些漏洞,來得到計算機的控制權(使自己編寫的程式碼越過具有漏洞的程式的限制,從而獲得執行許可權)。


漏洞利用與病毒、木馬有很大區別。防病毒軟體的防護物件是檔案,而漏洞的利用,完全可以在整個利用過程不產生檔案。通過網路,攻擊某個主機的某個埠,造成溢位後惡意程式碼在記憶體中執行,接著攻擊其它主機。


比如最近大家比較關注的XP停服之後所面臨的安全威脅,有人認為能殺病毒就行了,其實是很幼稚的看法,因為如果能通過漏洞成功攻擊計算機,可以獲取計算機的管理員許可權,甚至可以把防毒軟體閹割掉——防毒軟體還在,但會被騙過。


漏洞利用防護辦法有防火牆攔截、漏洞修補技術、漏洞緩解技術、沙箱技術等。


這兩年,漏洞得到了較大重視,挖漏洞的團隊也多起來,比如前一段比較出名的Keen-Team吳石等,是挖漏洞的高手,360的袁哥也是挖漏洞的高手。


漏洞有多少呢?這裡有一個資料:

2013 CVE總共記錄了5191個漏洞

2013漏洞排名微軟排第四,前三名為 OracleCiscoIBM


那如何在這樣的環境之下生存呢?作為360這個安全公司的資訊保安負責人,我給了自己四個假設,以及針對這些假設的應對策略,如下:


資訊保安防禦的4個重要假設


假設1系統有未發現的漏洞

應對1如何發現有漏洞被利用/攻擊行為檢測?


假設2系統有已發現的漏洞未修補

應對2找出哪些漏洞還沒有修補,進行修補


假設3系統已經被滲透

應對3如何發現系統已經被滲透了?清理!如何重現攻擊過程?如何溯源?


假設4員工不可靠

應對4如何發現員工的異常行為?如何檢測/攔截來自內網的攻擊?

0

0

這個4個假設,其實是把自己的防線建設在流沙之上,我們是在不穩固的基礎上做防護。最終,在一些傳統的防禦技術之上,我們走到了利用大資料進行資訊保安防禦的道路上。


我們每時每刻監聽100Gbps的頻寬,抓包並做協議還原;每天要儲存經過抽取、清洗之後的50TB的資料;每天儲存4000條網路記錄;對網路攻擊的反應可以在10內做出。


思路是:資料化一切。

首先是把流經網路的所有檔案提出出來,找出通過檔案進行的攻擊——90%以上的。

0

0


APT攻擊是通過文字檔案(office文件,PDFJPEG,甚至是TIFFGIF圖)進行的,這些看似無害的檔案其實可能被嵌入惡意程式碼

0


拿到這些檔案後會扔到檢測引擎中進行多重檢測,我們的沙箱、輕量級沙箱可以有效發現嵌在檔案中得惡意程式碼,檢測到這些程式碼所觸發的行為。

0


比如:是否在棧上執行了二進位制程式碼?是否在堆上執行了二進位制程式碼?是否在資料區執行了二進位制程式碼?是否釋放可疑檔案?是否建立可疑程式或執行緒?是否修改登錄檔?


鑽空子者,必定行跡詭異!


安全從業者的目的是要讓系統更安全。如果不分享漏洞,系統安全性不提高,做安全的累死,系統也安全不了。


有不少朋友會問,病毒是不是你們這些安全公司做出來的?實話告訴大家,根本用不著我們做,做病毒、木馬的人太多了,殺都殺不過來,沒必要自己費勁兒做。


現在一天要捕獲30-50萬種不同的木馬,2011年初最高峰的時候曾經一天逮過1000萬隻木馬,您說,還用得著我們做木馬麼?做安全軟體,首先還是要有效,能解決使用者的問題。


接著說安全與大資料:

360有著中國最大的程式檔案樣本庫:有50億個可執行程式樣本,其中大約7500是好程式,19-20可以確認是壞程式,還有大約30沒有再去進一步識別。


也就是說,如果拿100個程式來,98.5%的程式是壞的。於是,我們拿自己手中的樣本,用機器學習演算法進行大資料探勘,做了一個叫QVM的引擎。

0


因為樣本量大,加上訓練演算法得當,這個引擎可以識別出很多惡意程式。這個QVM引擎樹立了一個比較高的門檻,不是說我們工程師比別人聰明多少,而是在於我們樣本量實在是太大了,機器學習訓練之後模型的效果就好很多。


國內不少安全公司對我們的樣本直流口水啊,這就是大資料的力量之一。


除了提取檔案之外,我們還講網路流量還原到每一次的網路訪問,然後把這些網路訪問行為數字化


比如,每15分鐘內,對某個網站、某個IP的訪問都有多少次?對某個地址的訪問多少次?這些訪問都待了哪些引數?這些引數取值都是什麼樣子的?這些訪問的返回值是多少?等等。

00


拿到這些資料後,可以對使用者的網路行為畫像。而尋找攻擊的過程,首先是從這些海量訪問中找到“不尋常”的訪問,首先就是找出小概率事件,比如一個不同尋常的網路引數…….


北大袁曉如教授給我們做了一個總結,說這叫“在高維資料中找出離散點


具體說,包括如下工作:

1.網路的異常請求

2.網路裡的攻擊特徵

3.大資料儲存與計算

4.高效能分散式實時計算

5.機器學習與規則提取

6.威脅模型的建立


如果很不幸,前面沒有檢測到攻擊行為,主機被攻陷了,那麼大資料分析還能幫我們找出隱蔽的通訊通道——木馬進來肯定不是溜溜彎兒,是要偷東西走,或搞破壞的。


比如:

1.加密通訊,其實通訊的內容的加密“熵”會有不同,即因為加密,讓資訊熵變大了。


2.向比較奇怪的目標通訊地址發起了通訊,我們成功逮出來一個向希臘的某個IP發偽造的DNS請求的木馬。


希臘DNS這個不是機器學習,僅僅是因為這個通訊協議竟然請求希臘的伺服器,概率太小了,被發現的。


去年2月參加RSA大會的時候,美國那邊剛開始說大資料來解決安全問題的思路,今年再去參加RSA大會,已經有不少產品出來了,很慶幸的時,我們兩年多前就開始搞了,並且去年就已經投用,效果還挺不錯的


用大資料方法做網路安全的攻擊檢測,幾個要點是:

1、大資料基礎架構——儲存與計算能力;

2、樣本量——否則沒有機器學習訓練的基礎;

3、懂安全的人——模型是活的,需要不斷演進;



譚曉生

我說完了,朋友們有啥問題開問吧!


交流互動

楊靜

你們這個是什麼方法?用的平行計算?


譚曉生

基本沒有用到平行計算,還是分散式計算,HadoopStorm為主。用MPI叢集做了一些事情,但基本沒有用到多機並行處理的特性。


剛:

360本身有漏洞否?如何自我防禦?


譚曉生

360本身當然有漏洞,應對措施是:

1、自己投入精力挖自己的洞;

2、給報告360漏洞的白帽子獎勵;

3、用大資料方法主動發現別人對360漏洞利用過程;


卿剛:

如果它攻擊你的漏洞或從硬體裝置上破壞你的樣本庫呢


譚曉生

我前面的4個假設……,就是假設我有漏洞。樣本庫,不止一份例項。伺服器硬體,我有多家供應商。


卿剛:

樣本全,程式執行效率很慢甚至當機,請問如何改善?


譚曉生

樣本全,都是放在雲端處理,不是在使用者的計算機中處理的。一個雲端的檔案查詢,典型是在70毫秒內完成的。


楊靜

我問一個題外話,請問為什麼要給自己冠名為“土人”呢?


譚曉生

在深圳工作的時候,有一個女同事被派駐香港,她口頭禪,稱我們這些同事為“土人”,我們給了她一個綽號“洋人”,2003年我到北京,進入網際網路公司的時候,發現這個同事是哈佛的博士,那個是史丹佛的碩士,還都喝咖啡……,公司用IM,讓每個人起個暱稱,我覺得我自己是個純粹土鱉,沒喝過洋墨水,就起了個自嘲的名字”土人”。


丁蔚:

360會和業界或政府分享漏洞資訊,比如CERT, 以便儘快提示風險麼?


譚曉生

我們是Cert,國家資訊保安測評中心,公安部十一局等單位的技術職稱單位,也是國家漏洞庫的支撐單位。


彭永紅:

如下的總結不太合理,有堆積之嫌!網路的異常請求、網路裡的攻擊特徵、大資料儲存與計算、高效能分散式實時計算、機器學習與規則提取、威脅模型的建立


譚曉生

疑問是有些道理的,那些term是有些堆砌,不算嚴密。


彭永紅:

建議:網路安全的講座應該做成公益


譚曉生

最近兩年360到處做了不少網路安全講座,包括到大學裡攛掇學生搞資訊保安


黃明峰:

請問:資訊保安除了技術安全之外還有您提到的APT攻擊,我覺得APT攻擊的防範才是大資料思維的應用精髓,漏洞、後門都是技術層面,離不開採集特徵碼這種相對滯後的手段。


譚曉生

不完全贊同,大資料用於APT攻擊,是因為APT攻擊的檢測太困難了,特徵不明顯,通過大資料分析是能見效的方法,而漏洞等是更低一個層面的東西,是APT攻擊所用到的技術之一


彭永紅:

資料可以與科研人士共享嗎?


譚曉生

不行。可以做專案合作,運算之後的模型可以拿走,但原始資料不能拿出360機房。


陳新河:聯盟副祕書長;《軟體定義世界,資料驅動未來》@譚曉生再次感謝的精彩分享!


原文釋出時間為:2014-05-24

本文來自雲棲社群合作伙伴“大資料文摘”,瞭解相關資訊可以關注“BigDataDigest”微信公眾號


相關文章