想弄懂圖網路為何如此強大,我們跟極驗聊了聊|白洞戰報

naojiti發表於2019-11-07

此前我們多期《白洞計劃》中,都在探討以深度學習為代表的AI與產業接軌的細枝末節。

其中,資料難以收集、處理任務難、模型訓練成本高等等,已經是老生常談的槽點了。而在眾多解決方法中,近期來被提到最多的詞就是——“圖網路”技術。

簡單來說,就是基於圖(Graph)資料搭建起來的神經網路。它的特點是,在一開始就能讀懂資料,尤其是非結構化資料之間的種種隱祕聯絡。

想弄懂圖網路為何如此強大,我們跟極驗聊了聊|白洞戰報

比如深度學習看到一張照片,只知道“你和圖中另一個女人長得像”,但圖網路知道“你們長得像因為她是你媽並且此時內心還有點想揍你”。論邏輯推理能力,後者是不是厲害多了?

但圖網路技術究竟該怎麼訓練?有哪些具體的應用場景?又有著怎樣與眾不同的坑?真的是讓AI萌新們舊愁未解又添新愁。本期《白洞計劃》專門尋訪了以“圖資料平臺”實踐互動安全的極驗,以及其服務的技術應用方,來共同為大家揭開圖網路在安全領域的神機妙用。

穿越生死門:縈繞在直播平臺頭頂的安全之困

按照節目傳統,我們本期邀請到的技術應用方,是一家直播平臺。在交流過程中,對方的安全負責人孫總可真沒少吐苦水,我們這才知道,原來花團錦簇、熱鬧非凡的直播平臺背後,真實的生存環境和技術迭代的需求,簡直是“南上加南”。

大致總結一下,目前直播平臺面臨的安全難題主要有兩點:

一個是嚴峻的黑灰產“薅羊毛”現狀。簡單來說就是犯罪團伙通過批量賬號觀看直播,利用簽到領福利、充當水軍、領活動紅包等形式攫取不當收益,消耗平臺原本應該發放給主播和真人使用者的獎勵。但平臺在排查問題賬號時,如果不能及時快速準確地識別出異常行為,產生漏封、誤封,都會造成一定的經營損失,或是影響平臺的使用者體驗,比如說錯誤地給一個真人使用者降低了視訊位元速率。

想弄懂圖網路為何如此強大,我們跟極驗聊了聊|白洞戰報

另一個則是安全防禦的投入產出平衡。儘管直播平臺往往都會擁有自己的安全技術團隊,但從與孫總的交流中我們得知,許多黑灰產或黑客們也在不斷更新技術,利用演算法攻擊伺服器、模模擬實軌跡等都已經是常見操作了。對於這種“長期抗戰”,企業自身在產業場景行為資料的積累、演算法模型的快速迭代等方面往往“心有餘而力不足”,如果過度追求安全領域的天頂技術和持續對抗,又會過度消耗企業寶貴的現金資源。

可以說,如何應用資料、應用AI,進而幫助平臺降低運營成本,維護健康的直播環境,提升網安保障的價效比,正在成為直播平臺,也是千行萬業長久生存下去的前提條件與新賽點。

圖資料基座上的安全堡壘:新興網路防護需要怎樣的AI?

上述問題為什麼需要特別用圖網路技術來解決?從極驗的安全解決方案中,我們或許可以找到答案。

簡單來說,圖資料+深度學習所訓練出的圖網路,在新型網路安全業務中扮演了三個重要的角色:

第一重角色是“守衛者”。

最直觀地表現在對平臺運營安全的保障上。

在網際網路領域存在許多欺詐行為或隱藏攻擊行為,比如惡意爬蟲竊取平臺使用者資料,亦或是金融領域一個村子的人組團詐騙借貸,或是電商領域惡意利用平臺漏洞瘋狂“薅羊毛”,如何識別、偵查這些異常行為,就成了一道難題。

而圖網路的優勢在於,能夠針對一些“非結構化”的資料,發現它們之間的關聯,進而更容易洞察使用者的行為軌跡及意圖。

比如說,許多黑灰產在攻擊網站或App時都會採用一些自動化的指令碼,更先進的還會模擬一些真實人類的行為軌跡,藉助圖資料平臺對正常使用者的行為資料進行分析建模,最終生成的神經網路能夠更好地找出這些“工具”留下的把柄,做到提前預警,從而為平臺的資料資產安全保駕護航。

想弄懂圖網路為何如此強大,我們跟極驗聊了聊|白洞戰報

第二重角色是“精算師”。

圖資料加入神經網路的另一個好處,就是能夠直觀地提升平臺的智慧處理效率,進而有效地降低運營成本。

要理解這一點,來自極驗互動安全實驗室的閆先生為我們舉了一個現實中的例子。

在服務直播平臺的過程中,極驗發現他們對於音視訊流媒體的涉黃涉暴內容識別有很高的需求,稍有不慎就會面臨審查、App下架整改等風險。但利用傳統的深度學習影象分割技術,需要每一幀每一幀地進行處理、識別,背後對應的則是極高的算力成本。

如何對多維度的內容實現毫米級的精準識別,能夠認知影象中複雜關聯的圖資料平臺,採用分散式和並行訓練的方式,對十億級別的大圖資料進行高效學習,能更好地適應此類企業的業務需求。

想弄懂圖網路為何如此強大,我們跟極驗聊了聊|白洞戰報

第三個角色是“啟用酶”。

最直接的理解就是,作為關鍵媒介來啟用企業深埋於資料庫中的資料資產。

極驗的閆先生告訴我們,目前還有大概60~70%的資料沒有真正被大家所利用起來,原因之一就是裡面有非常多的結構化資料,是傳統深度學習神經網路很難處理的。

未來一旦啟用了這些隱形資產,對產業價值和業務增長都將會是潛力的極大釋放。

舉個最直觀的例子,社交網路就是最為典型的非結構化資料,A關注了B,B點讚了C的微博,D又轉發了某個文章,人與人、人與內容、話題與文章之間都存在著千絲萬縷的關係,很難用資料庫的形式來儲存。

而通過圖資料建模平臺的搭建,將這些關係型資料收集起來,進行上層的演算法建模,就可以實現一些前所未有地分析。進而幫助平臺改善使用者體驗,或者真正實現千人千面的商品推送等等,這些都會進一步啟用產業對AI新的價值想象。

想弄懂圖網路為何如此強大,我們跟極驗聊了聊|白洞戰報

當然通過交流,我們也瞭解到了極驗作為圖網路技術的先行者與實踐者,在現實中遇到的一些真實的阻礙。

其中最頭疼的一個,就是客戶層面的技術疑慮。

閆先生直言,剛開始接觸對方直播平臺的時候,他們對極驗的產品是有一定疑慮的。一方面出於對圖網路技術本身的不理解,另一方面則來自於技術與業務能否順利耦合的困惑。

在此基礎上,極驗通過對直播行業的充分調研,比如分析平臺的支出結構(一部分在寬頻和CDN上,一部分在主播工資上),進而打造了互動模型打擊黑灰產+內容模型提升計算效率,這樣一個雙效節省運營和工資成本的綜合解決方案,才最終拿下。

極驗也告訴我們,在今年7月份,他們剛剛釋出了一款叫疊圖的產品,基於GCN(圖神經網路)來解決不限於安全領域的各行各業的業務難題。

想弄懂圖網路為何如此強大,我們跟極驗聊了聊|白洞戰報

由此看來,今天的產業智慧化浪潮,需要的不僅僅是企業自身的認知迭代,AI技術也在一步步挑戰更高的穹頂,突破自身的瓶頸。

與此同時,整個網際網路和物理世界的資料複雜度也會越來越交融,也越來越複雜,無論是安全問題,還是其他諸如業務增長、體驗優化,更優質的AI與技術服務,也孕育在這些變局之中。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31561483/viewspace-2663163/,如需轉載,請註明出處,否則將追究法律責任。

相關文章