1482146098-1948-10670ada4ae3e713cb4e50b2461b

  資料無處不在

  在我們身處的時代,資料無處不在。據IBM公司估算,我們每天產生約2.5萬ZB的資料,這意味著世界上90%資料都是過去的兩年中產生的。

Gartner公司分析報告顯示,在2015年財富500強的公司中百分之八十五的企業無法利用大資料來獲取競爭優勢。

到2020年,全世界將有上百萬大資料相關的就業機會產生。這些龐大的資料蘊藏了寶貴財富,企業可以使用最先進的分析技術,利用這些資料更好地瞭解客戶的行為,識別商業機會,制定運營戰略。

讓我們舉幾個例子:

金融機構每天通過信用評分模型,瞭解他們的客戶在未來12個月內每種信貸產品(抵押貸款、信用卡、分期貸款)上的信用。他們以該信用評分為基礎來進行壞帳準備,計算巴塞爾協議II/III規定所需資本金數量,或是制定營銷方案(例如根據信用評分調整信用卡額度)。

電信運營商使用最近通話行為資料建立流失模型,估計客戶在未來一到三個月流失的可能性。

運營商會根據模型得分來制定營銷活動,避免有價值的客戶流失。

Facebook和Twitter會使用社交媒體分析技術進行內容分析和情感語義分析,以便更好地瞭解品牌認知度,進一步調整產品服務設計。

亞馬遜和Netflix等線上零售商不斷地分析顧客的購買行為,以決定產品捆綁銷售策略,並利用推薦系統為客戶下一次購買推薦產品。

信用卡公司使用欺詐檢測模型,檢測付款是否具有欺騙性,是否發生了信用卡盜刷。

政府採用資料分析技術來預測逃稅行為,優化公共預算分配,分析交通資料提高公共交通效率,分析預測恐怖襲擊保障國家安全。

化資料為價值

資料是任何分析模型成功的基礎。當啟動分析專案時,有必要詳細列出企業內所有可用於分析的資料。這裡的原則就是資料越多越好!因為很多分析模型都能自動決定哪些資料對當前分析很重要,哪些資料可以排除在下一步分析之外。

我們的研究不斷印證了這樣一個觀點:改善分析模型最好的辦法,就是投資於你的資料!這可以通過數量和質量兩個維度的提升來完成。對於前者,一個關鍵點是如何整合結構化資料(例如關聯式資料庫)和非結構化資料(如文字),提供全方位綜合視角進行客戶行為分析的,另一個關鍵點則是線上資料和離線資料的整合,很多企業為這個問題所困擾。此外企業還可以超越其內部邊界,考慮從外部資料供應商那裡購買外部資料,以彌補其內部資料的不足。大量的研究表明採用外部資料,對比較和完善分析模型非常有用。

雖然資料常常體量巨大,但是資料質量經常是一個痛點。GIGO(garbage in garbage out)的原則在這裡非常適用,爛資料只會生成爛模型。聽起來顯而易見,然而實踐中資料質量往往成為許多分析專案的“阿喀琉斯之踵”。資料質量可以分解成很多維度:準確性、完整性、新近度、一致性等。在大資料分析中,企業必須專門制定資料質量管理方案,設立資料稽核員、資料管家或資料質量經理等職位,持續監測資料質量。

資料分析應該從商業問題開始,而不是從具體的技術解決方案開始。但是這帶有一絲“雞生蛋,蛋生雞”的意味。要解決商業問題、識別商業機會,需要對潛在的技術解決方案有了解。以社交媒體分析為例,只有首先了解分析技術後,公司才能開始思考如何利用它們研究線上品牌認知度,進行趨勢監測。為了跨越分析技術和業務之間的鴻溝,持續性培訓和學習是關鍵,它能使企業始終屹立在分析技術的潮頭,保持競爭優勢。在這一點上,學術界應該深刻檢討,因為現有的很多大資料分析(或資料科學)碩士課程無法滿足上述的要求。

將資料轉化為洞察力和提升價值的另一個關鍵點是分析模型的驗證。分析模型需要適當的機制和工具來進行稽核和驗證,越來越多的公司將分析團隊拆分成模型開發和模型驗證兩個團隊。良好的公司治理能夠在兩個團隊之間築起一道防火牆,使得由前一小組開發的模型可以客觀和獨立地被後者團隊評估。公司甚至可以考慮由外部合作伙伴進行模型驗證。通過建立分析基礎資訊設施,公司能夠不斷基於現有狀況對模型進行評估和驗證,提升分析模型效能,抓住更多目標客戶。

資料分析往往不是一蹴而就的事情。事實上,當分析模型投入使用時就已經過時了!分析模型總是落後於現實,我們能做的只是保持這種滯後性儘可能小。分析模型所使用的資料,都是在一個特定的時間點和特定的內外部環境條件下采集得到的。這一特定環境不是靜態的,而是隨著內部因素(如新戰略,不斷變化的客戶行為)和外部因素(新巨集觀經濟環境和法律法規)不斷變化而變化。

例如,欺詐檢測分析中,欺詐者總是試圖不斷逃避模型的偵測,以騙取更多的錢財。另一個例子是信用評分模型在很大程度上依賴於當前的巨集觀經濟狀況(復甦或是衰退)。因此,分析模型要取得成功創造價值,就必須對內外部環境進行監測,以及時調整或重建模型。

構建底層基礎

為了建立一個分析環境,企業需要就所採納的硬體和軟體技術進行選擇。

硬體方面,需要專門的基礎設施(如Hadoop和相關的軟體棧)來清理、整合、儲存和管理資料。為了減少支出,企業可能選擇雲端儲存,並將大資料作為一種服務。公司在同外部進行資料傳輸和交換時,應採取適當的謹慎措施,保證資料私密性。

軟體方面,很多廠商提供了大資料分析的商業解決方案。目前市場還有很多的開源分析軟體(R、weka、Rapidminer),雖然這些開源軟體解決方案變得非常流行,但是他們還不夠成熟,還不足以很好的處理具有大體量、多樣性等特性的大資料。大資料分析成為越來越多公司的DNA 組成部分,但是政府、金融、醫藥,每個行業都有自己發展足跡,資料、業務和監管都具有特異性,需要針對不同的基因組成進行不同的設定。因此企業需要的是能提供綜合全面垂直業務解決方案的軟體,而不是一個跨行業的橫向通用軟體。

鑑於建立資料分析構架環境的複雜性,公司可能會考慮外包。然而,公司內部資料及其蘊藏的資訊是公司最寶貴的戰略資產,因此不宜讓第三方完全擁有資料訪問權。相反,企業應該建立內部分析中心和培養公司人員的分析技能,以服務公司廣泛的分析需求,這是公司在管理中應該考慮的問題。同樣公司董事會和高階管理人員都應該參與到分析環境構建中。很多企業還嘗試設立首席分析官(CAO)這樣的職位,專門負責建立企業範圍內的分析環境和基礎設施,管理各業務單位分析模型的研發、稽核及部署。

最後一點,我們現在看到越來越多的中小型企業開始藉助大資料分析。這些公司通常預算有限,因此它們比較中意那些現成的可以直接用於資料分析的現成軟體解決方案。比如利用線上分析工具,來研究網站的使用現狀,優化網站設定、改善網站在搜尋引擎排名併購買付費引擎營銷方案。

總結與展望:

在文章的結尾之處,我們想再次重申企業進行大資料分析所必須注意的幾個問題:

從公司管理的角度來看:

(1)公司應同時關注資料體量和資料質量;

(2)持續學習和培訓能填平新分析技術和新商機之間的鴻溝;

(3)分析開發團隊應該包括獨立的模型開發團隊和模型驗證團隊;

(4)分析並不僅僅是模型開發和驗證,還包括模型的監測和回溯測試。

從技術的角度企業應該:

(1)考慮使用雲服務來進行大資料分析;

(2)應該關注垂直式行業解決方案,謹慎選擇開源軟體;

(3)對待外包分析要慎之又慎,最好能在企業內部建立分析環境,並置於高層的管理之下。

作者簡介:

巴特,貝森斯(Bart Baesens),比利時魯汶大學教授。Bart Baesens在大資料分析、客戶關係管理、欺詐檢測和信用風險管理方面均有深入研究。研究結果已發表在國際著名刊物《Management Science》,《IEEETransactions on Knowledge and Data Engineering》,《Machine Learning》等,Bart Baesens還擔任多家國際性公司資料分析諮詢顧問。更多相關資訊可參見網站www.dataminingapps.com,或發郵件至Bart.Baesens@kuleuven.be

朱兵,四川大學商學院副教授,比利時魯汶大學資訊管理系博士後,主要從事大資料分析與資料科學研究。Email:zhubing1866@hotmail.com

來源:datahoe