資料洩露、資料孤島、資料虛假:大資料如何翻越這三座大山。

資料庫安全專家發表於2019-06-21

早在1980年,著名的未來學家Alvin Toffler就在他的著作《第三波》中熱情地讚揚了這一大資料是工業革命之後的第三波資料和數字資訊。直到2008年底,Randal Bryant、蘭迪·齊齊艾德華·拉佐斯佳和約翰泰勒都在探索大資料計算中大資料應用的可能性:商業、科學和學會的革命性突破。此外,ibm在2012年發表了一篇白皮書《分析:大資料在現實世界中的應用》,重新定義了基於道格·萊尼的3v理論的大資料的4v應用理論。並在會上大膽預言。


跨域應用大資料風險控制


2011年2月17日,全世界都記得IBM的Watson計算機系統。它在智力競賽節目“危險”中擊敗了兩個人類挑戰者,電腦科學家認為這是大資料超級計算能力的勝利。從那時起,大資料正式開啟了工業應用的第一名。在短短几年內,它已經涉及金融,技術,政府,教育和醫療等許多領域。其中,金融作為具有數字價值的典型行業,大資料技術已廣泛應用於金融等諸多領域,如風險控制,客戶管理,精準營銷和產品服務創新等。


金融領域的應用


眾所周知,大資料技術在風險控制領域的應用非常廣泛。大資料風險控制在金融領域的應用將根據風險型別而變化,例如申請欺詐風險,交易欺詐風險,支付欺詐風險,信用風險,合規風險,市場風險,現金風險和洗錢。風險。作者將探討兩種最重要的風險型別:欺詐和信貸。反欺詐主要透過身份驗證和黑名單故障排除來解決:1資料真實性; 2還款意願問題。信用證主要是對償還能力和償還意願的判斷。


例如,摩根大通是一家使用金融大資料風險控制解決方案的早期投資銀行。反欺詐和信用風險控制的原則基於事件驅動的實時欺詐檢測和信用風險監管。


在資訊收集方面,大部分客戶資料來自離線業務系統積累的結構化資料,其中一小部分資料是在Facebook和Twitter等社交網站上收集的半結構化或非結構化資料。例如,文字、影片等。經過資料交換平臺和Hadoop分散式系統的集中處理,摩根大通金融大資料系統將統一格式的資料儲存在資料倉儲中。


在實時欺詐控制中,摩根大通根據客戶的360度肖像實時監控反欺詐和反作弊行為。首先,採用線上和離線方法交叉檢查客戶的身份。例如,透過FICO評分,為離線調查選擇分數低於650的客戶群。在很大程度上,逃避個人或團體的應用程式欺詐。此外,摩根大通的反欺詐平臺將利用資料探勘,機器學習和其他技術從消費歷史資料庫的欺詐性消費記錄中隨機抽取具有相同特徵的欺詐模式,並預測和分析下一個新的消費行為。每當發現新的欺詐時,系統立即執行匹配檢查以確定欺詐的型別是交易欺詐,支付欺詐還是其他型別的欺詐。如果原始欺詐模式與系統不同,則記錄新的欺詐記錄。在反欺詐模型中。


在信用風險控制方面,摩根大通專注於客戶還款能力和償還意願。它使用邏輯迴歸修正模型來預測借款人的償還能力。該模型主要評估客戶資產,負債,未來收入和成本現金流量的定量值。摩根大通對客戶償還意願的調查基於客戶事件資訊和類似的客戶行為。在形象方面,傑克最近贏得了500萬美元的彩 票獎項,獲獎活動資訊的觸發將提升李三的報酬意願。湯姆和吉姆是好朋友,經常在同一家餐館(使用美國信用卡使用他們的信用卡分享賬單),湯姆的頻率和金額可以在很大程度上預測吉姆願意償還的力度。


其他領域的應用


今天,世界一半以上的人口居住在城市。隨著城市人口的快速增長,如何對人口進行精細管理,如何平衡資源配置和建設智慧城市已成為一個亟待解決的問題。


大資料作為一種新的資訊挖掘與處理技術,為智慧城市的建設提供了一種有效的解決方案。大資料技術在智慧交通領域的典型應用。在此階段,可以透過GPS和攝像機資料規劃和設計複雜的城市道路。包括交通訊號燈的時間間隔、事故預防調查和道路攝像機的相關控制。例如,大資料服務提供商Teradata幫助西班牙交通管理局實施了大資料交通事故調查,這不僅大大減少了事故調查的人力和財力資源,而且從交通事故的源頭上有效降低了事故發生的機率。


大資料風險控制的有效性


近年來,大資料風控技術在各種應用領域的發展速度令人眼花繚亂。然而,另一方面,它的有效性也受到很大挑戰。 2015年,陳宇在“江南風電網路金融”中提出了大資料風控失效理論。作者認為大資料是有效的,但其有效性不足。


具體來說,p2p平臺在不久的將來已經受到特別關注。自2007年首個p2p平臺在中國誕生以來,p2p平臺經常暴露出執行、倒閉、提款困難和調查干預等問題。目前,大多數p2p平臺聲稱自己的平臺使用先進的大規模資料風控制技術。鹽金是嚴格的,基本上可以保證不良貸款率在p2p行業處於較低水平。然而,p2p行業的風控狀況總是適得其反。根據網際網路貸款機構釋出的《2015年p2p線上貸款行業年報》,2015年全國正常執行的p2p平臺總數為2595座,累計停機和問題平臺數高達896座,佔總數的34.53%。問題平臺總數為2014年的3.26倍。因此,一方面的p2p風控反映了大資料風險控制的有效性問題。


有效性問題的提出


在資料來源方面,資料孤島仍然是制約我國金融信貸行業發展的重要因素。目前,政府、銀行、券商、網際網路企業和第三方徵信公司掌握的資訊資產難以在短時間內互聯互通。正如吳昊(2015)所說一樣,資訊孤島導致了資訊不對稱、不透明,帶來了大量的多頭債務風險和欺詐風險。由此得知,金融信貸行業若想利用大資料風控技術大力提升風控水平,就必須打破資訊孤島,解決資訊不對稱和資訊獲取不及時的問題。


在資料質量方面,資料缺乏有效性是資料質量不佳的主要因素,也直接導致了大資料風控有效性的不足。近些年,金融機構、電子商務、社交網路、公共政務、OTO網際網路平臺等資料體猶如一臺永不停歇的機器一般,源源不斷地製造著每天2EB級別的海量資料。然而,資料格式多樣化、資料形式碎片化、有效資料缺失和資料內容不完整等問題也隨之而來。因此,改善資料質量,提升有效性成為大資料風控水平提高的必備環節。在資料採集和使用的制度建設方面,保護個人或企業隱私,一直都是我國政府制度建設的一個重大方向。如何合法地、適度地、有效地採集和使用大資料?這不僅僅是一個技術實現的問題,更是一個社會進步的問題。近年來,資料洩露事件頻頻出現,也成為了各大媒體爭相報導的新聞頭條和人們老生常談的熱點話題。


有效性問題的分析


在大資料風控有效性不足的三個主要因素中,資料島是最優先考慮的。首先,公共設施、生活費、社會保險、交通狀況、教育和醫療等政府資料仍在相關政府部門的資料庫中,尚未向社會公開,甚至未在政府部門內共享。目前,儘管工商、司法、公益等資訊已經向全社會開放,但政府公共資訊公開程度仍然較低。此外,政府資訊披露將是一個漫長而複雜的過程。其次,銀行、證券公司、基金、信託等傳統金融機構形成了長期的合規文化氛圍,主導著各項業務的規範化發展,設計了許多限制性環節和監控措施。因此,傳統金融機構的資料開放過程變得極其繁瑣和低效。此外,網際網路公司、第三方信貸公司和擁有大量真實資訊的o2 o平臺很難實現互聯程度。電子商務、社交網路、地理位置、信用評價、搜尋引擎、移動網際網路行為等大資料交叉集中在阿里巴巴、騰訊、百度、拉卡拉、九強等企業。自從IBM宣佈其第一個大資料業務案例以來,大資料技術已經在全球迅速普及。資料是價值,它深深植根於每一個現代企業的發展理念之中。這些企業希望抓住第三次技術浪潮的機遇。由於它們之間在封裝過程中存在著激烈的競爭,實現大資料互連的目標似乎很困難。


在網際網路金融第一年的短短三年裡,網路安全事件層出不窮,網路資料的真實性再次被提及。王強(2015)認為,在大資料時代,資料基本上是垃圾進出,真實性可能只有50%。企業家和學者對資料真實性的關注並非空穴來風。銀行、P2P等機構發生嚴重金融欺詐事件。例如,2015年,我國商業銀行經常發生身份欺詐、卡被盜、頻繁套現等安全事件。毫無疑問,以風險為主要業務的商業銀行仍然是大資料真實性最高的機構。但是,商業銀行仍將面臨上述風險。其中,金融基礎設施不完善是最直接的因素。例如,在身份認證方面,自然人或企業很可能開設各種商業銀行、第三方支付、P2P網路借貸、小額貸款等賬戶。商業銀行利用中央銀行信用資訊系統對其他銀行的客戶績效進行識別和定價。對於第三方支付、P2P網路借貸和小額信貸公司的賬戶資料,商業銀行缺乏外部大資料採集的能力和意識,無法及時、方便地獲取。因此,除了商業銀行之外,其他信貸渠道中客戶所帶來的信用風險不可避免地會疊加到商業銀行的信用風險上。


與此同時,網路安全事件也帶來了嚴重的資料洩露風險。從國際資料洩露情況來看,Verizon釋出的報告《Data Breach Investigations Report 2015》顯示,全球調研覆蓋95個國家,61個報告了資料洩露問題,共涉及79790個安全事件,損失高達數千億美金。從國內來看,國內專業的網際網路安全平臺360釋出的《2015年中國網際網路安全報告》顯示,共有1410個漏洞可能造成網站上的個人資訊洩露,可能洩露的個人資訊量高達55.3億條。

總之,要提高大資料風控制的有效性,就必須解決資料島、低質量資料、資料洩漏等問題。


提高大資料風險控制有效性的方法


大資料風力控制並沒有像現在這樣有效。在這一階段,為了提高大資料風力控制的有效性,我們需要探索解決三個問題的方法:資料孤島、低質量資料和資料洩漏。為了對我國原有過於集中、同質的風控系統進行升級換血,避免系統性風險給我國帶來的巨大危害。


政府監管機構、傳統金融機構、網際網路公司、第三方信貸公司和元寶平臺將在最佳化現有大規模資料風控制模式的長期過程中發揮不可或缺的作用。其中,政府監管機構的作用尤為重要。例如,打破資料島得益於政府管理機構積極徵求多種意見,制定公平和嚴格的法律和條例或行業規則,並推動多方加入資訊共享和資料交換的行列。因此,提高風控效果的大資料,筆者認為應該從以下三個方面進行思考:


促進資料連線以解決資料島問題


目前,資料孤島是大資料風險控制系統建設過程中資源整合的最大障礙。各種組織和企業在擴充套件業務的同時積累了大量的資料資訊。但是,由於各系統之間缺乏資訊共享機制,形成了大量的資料孤島,不利於中國信用基礎資料庫的建設。


倡導資料互聯互通能有效地打破資料孤島,然而,真正實現互聯互通的目標,必須經歷漫長的過程。回顧國際上已開發國家的資訊互通的歷程,作為世界金融中心的美國,其信用大資料的開放方式是值得借鑑的。美國最初的資料開放源自於民眾對信用資料知情權的訴求。1953年至今,從最早的《資訊自由法》到美國總統奧巴馬推動資料的開放運動,已經從國內成功地推廣到了由美國、英國、墨西哥等8個國家發起成立的資料開放政府聯盟(OGP)。


從國內的角度來看,中國在資料開放水平方面取得了顯著進步。近年來,已提出許多創新措施。 2015年8月31日,國 務 院釋出“大資料發展促進綱要”,正式將大資料戰略定位為國家層面的創新戰略。在此大綱中,建議在2017年底之前形成中國跨部門資料資源的內部共享模式。在2018年底之前,將建立一個統一的政府資料開放平臺。到2020年底,中國將逐步向社會開放金融,信貸,企業登記監管,交通,醫療,教育,氣象等民生安全服務領域的政府資料集。


對地方政府而言,我國50個省市在貴陽市政府、貴陽大資料交易所的推動下,將共同發起中國城市大資料產業發展聯盟,並於2016年5月27日在貴陽揭牌。中國城市大資料產業發展聯盟的成立,不僅從很大程度上推動城市之間的資訊共享、資料互通,全面啟用大資料價值,而且有助於提升政府行政效率,提升科學決策能力。例如,而且將積極推動政府資料公開,打通部門壁壘、提高行政效率,提升政府治理能力,引領政府職能轉型。舉例來說,農產品的核心問題是合理種植或養殖農產品,正如郭文利,權維俊,劉洪2010年在《精細化農業氣候區劃業務流程初步設計》中所言一樣,農業氣候區劃是農民種植好農產品的決定性因素之一。 所以說,根據已有的氣候、土質、病蟲災害、迴圈生長等資訊,藉助於大資料風控技術形成的生長趨勢和消費情況報告,對農牧業的精細化生產尤為重要。隨著政府資料的共享,農業部門透過氣象部門的實時氣候大資料預測,可以幫助農民完成科學種植。對企業而言,2015年1月,中國人民銀行印發了《關於做好個人徵信業務準備工作的通知》。通知要求芝麻信用、拉卡拉信用和騰訊徵信等八家機構做好個人徵信業務的準備工作,具體來說,截止到2015年末,央行個人徵信系統共收錄8.8億自然人數,其中3.8億人有信貸記錄,企業徵信系統收錄企業及其他組織2120萬戶,其中577萬戶有信貸記錄。資料量的爆炸式增長,反映了政府監管部門、金融機構和企業之間已經開始進行大資料的分享嘗試。由此,拉開了大資料交叉互通的序幕。


加強資料驗證能力,以提高資料質量和可靠性


隨著資料採集渠道的不斷髮展,透過交叉檢測、生物測定和機器學習等手段解決低質量資料的問題已迫在眉睫。


據悉,目前貸款包裝、組團欺詐、賬戶造假等情況屢見不鮮。尤其在信用貸款領域,欺詐佔了60%的比例,大部分採用身份造假和資料包裝。其中,在實名場景欺詐層面,大資料風控模式需要對身份冒用、虛假資訊和不良歷史進行風險識別;在非實名場景欺詐層面,大資料風控模式需要警惕虛假註冊、惡意搶購、買賣串通和營銷作弊等手段。面對網際網路金融在中國的爆炸式增長,商業銀行等信貸機構缺乏外部大資料的採集意識和技術。舉例來說,一家創業企業在銀行成功獲得授信額度為50萬、為期1年的人民幣貸款。這家企業同時在多家小型P2P企業獲得多筆小額貸款,為了在銀行獲得更高的信用額度,其利用商業銀行、P2P企業之間資訊不對稱的機會,將P2P借款還給銀行,以獲得銀行的第二筆額度更高的貸款。如此迴圈,這種“類旁氏欺詐”並不會被銀行和P2P覺察。然而,隨著我國大資料開放程度的日益擴大,交叉檢驗等技術的日趨成熟,“類旁氏欺詐”的真實面目將會暴露無遺。


此外,大量現有的人工審計將被智慧審計技術所取代。例如,第三方信貸機構芝麻信貸積極尋求外部合作,以開放公安、工商和法院之間的一些資料介面。它有豐富的內部和外部資料。資料型別涵蓋了食物、衣物、生活費用、投資融資、轉移支付和社會福利等數百種生活場景資料。同時,在芝麻信用資料的幫助下,蟻金利用機器學習、影片對話、笑臉掃描等先進技術,對內外大資料進行交叉核對,並有效、快速地進行風險識別和定價。從申請到信貸只需要7分鐘。


推動建立與資料保安有關的系統,防止非法資料外洩


毫無疑問,資料洩漏是大資料時代不可忽視的風險來源。 1997年以後,網際網路在中國迅速發展,中國逐漸進入資訊社會。人們的食物,衣服,住房和交通現在已經與網際網路緊密相連。因此,資料安全性已經上升到與州,社會和個人相關的問題。對於國家而言,在國防安全和金融安全之後,資料安全已經上升到第一安全位置;對於社會而言,資料安全已成為信用倫理體系健康建設的重要組成部分;個人,如果不是為了確保資料安全,個人隱私資訊將不會被保留,整個社會的信用風險將隨之而來。


我國在資料安全立法起步較晚,但是進展神速。2013年11月12日正式成立國家安全委員會。2014年我國在2013年11月12日正式成立國家安全委員會,並在2014年2月27日成立中 共中央網路安全和資訊化領導小組辦公室,由習 近 平總書記任組長,這意味著資訊保安正式提升到國家戰略高度。2014年8月28日,工信部發布《工業和資訊化部關於加強電信和網際網路行業網路安全工作指導意見》,提出完善網路安全保障體系的總體目標。到了2015年6月24日,民眾最為期待的《網路安全法》草案進入人大常委審議階段,2015年8月5日意見徵求結束,立法進入最後階段,正式推出在望。《網路安全法》將從保障網路資料安全和保障網路資訊保安等方面進行了具體的制度設計,這對於大資料風控有效性的提升,是最大的利好。


在資料安全意識方面,難能可貴地是,2012年的達沃斯世界經濟論壇上,就一致決定將資料納入到新的經濟資產類別。我國學者劉玉在《淺論大資料資產的確認與計量》中探討了資料作為一種經濟資產的會計計量方法。


結語


綜上所述,在政府監管部門、傳統金融機構和網際網路企業的共同努力下,建立視覺化的三維信貸體系,構建完整的系統,資料將不再孤立,大資料風控的有效性不足的問題將解決。


中安威士 :保護核心資料,捍衛網路安全


來源:網路收集


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69914889/viewspace-2648389/,如需轉載,請註明出處,否則將追究法律責任。

相關文章