日誌資料分析關乎企業風險管控

雲端計算頻道發表於2018-10-26

近日,一篇《估值175億的旅遊獨角獸,是一座殭屍和水軍構成的鬼城》的自媒體文章,引起業界高度關注。文章直指“馬蜂窩”資料造假,稱馬蜂窩從其他平臺抄襲搬運的點評,佔馬蜂窩官網總點評數的85%。作為一家風頭正盛的旅遊網站,馬蜂窩對此表示不服,把當事方(深圳市乎睿資料有限公司及自媒體文章作者丁子荃)告上了法庭。

真相到底是什麼,局外人可能沒辦法準確判斷。但是,從技術角度來看,這次“馬蜂窩被捅”事件反應出幾個值得爭議的熱點。

第一,對於“爬蟲工具”的使用問題。 隨著大資料的興起,有越來越多的企業和個人意識到結構化、非結構化資料的重要性。如何採集及整理這些資料,進一步挖掘商業價值?於是,爬蟲軟體工具開始盛行。我們隨便一搜,什麼八爪魚、集搜客、熊貓採集等等,一抓一大把。這些工具軟體的賣點是簡單、易用,即使是不懂程式碼的業務人員,也能使用。但是,這些軟體是否能隨便在市面上售賣?如果可以買賣,是不是要約束下對方的使用範圍?深圳市乎睿資料有限公司,這次捅“馬蜂窩”的工具,也是藉助“機器人”來完成。

第二、隨便爬對方的資料,是否構成侵權 。很多網際網路公司創業,基本沒有自己的資料,只好從其他平臺,甚至是競爭對手的平臺“爬資料”,這已成行業潛規則。這樣的“潛規則”,是否合法?

第三、作為受害方,我們如何透過日誌資料分析控制未知風險。 不管怎麼說,“資料造假”給“馬蜂窩”帶來了大量的負面效果。多年積累起來的使用者形象,毀於一旦。如果說,馬蜂窩確有其實,那就需要從道德和法律層面綜合考量。如果這次事件是有人故意找茬,我們要思考如何透過技術手段保護自己。爬蟲、撞庫、駭客攻擊……作為網際網路人,這些技術我們早已耳熟能詳。但是,如果被別有用心的人利用,後果不堪想象。

什麼是爬蟲?爬蟲本身就是網路機器人,是一種能夠自動在Web上根據某種策略進行遠端資料搜尋與獲取的程式,也被稱為網路蜘蛛或網路爬蟲。百度、谷歌等搜尋引擎,都是藉助這一技術進行資訊蒐集。但是,不友好的自動訪問會帶來許多問題,除了涉及商業機密,還會佔據平臺頻寬,影響正常使用者的訪問。

所以,對於管理人員來說,有必要建立一個已知網路機器人的資料庫。資料庫欄位包括網路機器人的標識agent和網路機器人所在的伺服器IP地址,然後透過檢測訪問者的IP地址來進行識別。對於未知的網路機器人,雖然我們的監測能力有限,但是可以從日誌中挖掘出每天Web端的訪問情況,建立有效的風險模型,就有可能識別出可疑IP。如果日誌記錄中發現異常IP,完全可以透過技術手段遮蔽掉。Web日誌包含的資訊量雖然不多,但是從日誌欄位值中可以發現異常使用者操作行為。

所以,基於大資料的日誌資料分析變得越來越重要,它不只滿足動態安全管理需要,也是運維人員進行風險管控的有力抓手。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31545808/viewspace-2217721/,如需轉載,請註明出處,否則將追究法律責任。

相關文章