導讀:時至今日,我們的資料管理能力日益提升,但資料分析能力則相對落後。儘管工具與流程皆已齊備,但仍然缺少充足的資料科學家人員。在今天的文章中,我們將專注於能夠交付實際分析結論的大資料應用,同時追蹤其發展及當前狀態,最終藉此窺探大資料技術的未來發展方向。

1463933002-2044-3417eb9bbd9018a3a62d2a
早期大資料技術採納方指明令人感興趣的跨行業發展可能性

根據2012年《福布斯》雜誌發表的文章,早期大資料技術採納方主要來自金融服務、電信、製造(特別是消費級產品)以及政府領域。

早期採納方在起步階段會使用其新近安裝的大資料基礎設施(例如HDFS、MapReduce以及NoSQL資料庫等等)以實驗各類新型應用。根據 Pacific Crest公司收集到的資料,各早期採納方往往希望利用這些方案處理資料中心日誌資訊(包括伺服器、路由器以及各類物聯網感測器等),旨在實現網路分析與 IT系統效能監控。在此基礎之上,亦有相當一部分企業嘗試利用大資料技術進行財務資料(欺詐檢測)與Web資料(情感分析以實現個性化體驗)分析。

表1 大資料應用早期實驗方向

1463933002-1498-3417eb9bbd9018a3a52b26
初步實驗對於瞭解大資料基礎設施收益、潛力與不足之處非常重要。然而根據CapGemini於2014年釋出的報告,試水性實驗的成功比例並不算 高。其失敗原因主要有三:1)將資料分散在多個不同團隊中,因此訪問難度較原始設計更高。2)資料被安置於遺留系統當中,導致將其匯出至大資料基礎設施變 得非常困難。3)缺少統一而明確的全域性性資料管理與資料分析方案,這使得工作人員難以從資料內提取資訊。而隨著此類問題的一一克服,近來我們發現成功案例 變得愈發普遍。事實上,目前全球各地對於大資料基礎設施及其附加方案的興趣都呈現出快速升溫之勢(見圖一)。

圖1 各行業與地區大資料投入資料

1463933003-6522-3417eb9bbd9018a3a53127
企業客戶持續投資給初創公司帶來可觀的風投支援積極性

企業向大資料技術投入的資金呈現增長之勢。根據NewVantage指出,受訪企業中有27%表示其將在2017年之前向大資料專案投入超過5000萬美元資金。而在2014年面向同樣企業物件的調查中,這一比例僅為5.4%。

目前,價值萬億美元的行業,包括醫療衛生、保險、農業、能源、醫藥、教育、汽車、運輸以及物流等等,都在積極探索如何利用大資料利器解決自己面臨的 現實難題。舉例來說,汽車製造商希望分析消費者的資訊娛樂選擇以提供更理想的車載資訊娛樂體驗,同時亦需要分析車輛效能資料以提供預防性維護建議。另外, 無線運營商也希望瞭解消費者如何使用其資料,從而更好地提供內容並實現營收。

考慮到以上提到的企業投資與變革力度,風險投資商們則更為積極地為大資料初創企業提供資金,如圖三所示。單在2015年年內,風投方為大資料初創企業提供的資金總額就高達67億美元,超過2014年的60億美元。

圖2 截至2016年2月大資料應用總體態勢圖

1463933003-4703-3417eb9bbd9018a3a53f28
出於同樣的理由,大資料初創企業也開始迎來一波收購浪潮。其中包括AOL收購Convertro,谷歌收購Adometry,蘋果收購 Topsy,Teradata收購Aster Data與Think Big Analytics,Salesforce收購Edgespring等等。最近,我們還見證了微軟收購Revolution Analytics,HDS收購Pentaho以及Advance收購1010Data。除此之外,小規模收購亦層出不窮,包括Amazon收購 Amiato等。

如圖二所示,目前風投方的主要關注重點在於大資料基礎設施與工具。儘管基礎設施與工具部署同樣顯示出旺盛的生命力,但這裡我們姑且將注意力集中在大資料應用身上。

大資料應用的崛起

資訊科技中的每個新興領域(例如商務智慧、客戶端/伺服器計算、雲端計算以及移動計算等)通常都需要經歷三個發展階段:

◎基礎設施部署。在大資料領域,此類基礎設施負責對資料進行儲存、管理、移動與傳輸。

◎工具部署。在大資料領域,此類工具用於搜尋並分析各種形式的大資料並呈現處理結果。

◎應用程式引入,通常將基礎設施與工具轉化為實際功能。

遵循這樣的分階段實現方式,眾多大型企業已經開始部署大資料基礎設施與多種工具,旨在分析收集到的海量資料。

由於我們已經進入應用開發與部署階段,因此最重要的是著眼於具體軟體。截至目前,我們已經發現了三種主要大資料應用型別:

淺層應用,包括執行客戶流失分析並圍繞通用型分析工具進行開發(例如Dataminr與DataRobot等)。 這些應用由資料科學家負責支援,從而執行經過嚴格定義的任務流程。這些應用通常只能在執行基礎之上提供淺層分析能力。這些由分析模型與報告機制驅動的應用 由資料科學家及服務專家進行開發與維護——他們往往來自管理諮詢企業,且充分理解相關業務領域及終端使用者需求。終端使用者通常為商業分析師。

應用能夠處理大資料,但無法實現任何形式的預測或預測性分析(例如Socrata及Zuora)。 這類應用可能面向水平或垂直體系,其能夠為終端使用者——主要為商業分析師——提供理解資料並形成結論報告的能力。作為例項,紐約市就利用Socrata系統建立財務報告。

具備嵌入式預測性分析的應用。此類應用未來將分為以下兩種類別:

1.包含預測模型,並由資料科學家負責開發與定期更新。這意味著應用供應商必須擁有強大的服務能力以支援軟體功能。此類應用包括AgileOne、OPower、Zephyr Health、Duetto以及DataXu與MediaMath等線上廣告應用方案。

2.所使用的預測模型可由應用本身自動構建。此類應用廠商包括Oration與Namogoo。

歸屬於這一類別的應用可能面向橫向(例如AgileOne與Namogoo)或垂直領域(例如OPower、Duetto或者Oration)。

這三種大資料應用型別可被視為應用領域的開創者,如今以其為基礎又有第四種見解型應用開始出現。之前提到的第三種應用同見解型應用最為接近,但二者間又存在著重要差異:其能夠做出預測,但無法形成見解。換言之,第三種應用無法根據預測結果執行對應操作。相反,它們依賴於使用者來識別特定預測結果並執行對應行為。

總結:

儘管仍然面臨多種障礙(每一種新興技術在出現後都必須面對挑戰),但大資料的早期採納方已經在相關專案當中積極投資,並將其部署至企業業務系統當中 以解決各類關鍵性難題。為了實現大資料的跨行業處理潛能,各風險投資方都在積極為大資料初創企業提供援助,希望其解決方案能夠為大型企業客戶所採納。考慮 到已經陸續出現的大量大資料基礎架構及部署分析工具,多數企業開始將注意力轉向大資料應用程式。我們確定的這三種具體型別涵蓋了相繼出現的各類新型大資料 應用。其中一些能夠提供預測結論,但卻無法實現見解與實際行動,這亦是大資料應用尚未徹底發展成熟的主要標誌。在未來的文章中,我們將深入探討見解型應用 ——即第四類亦是最具發展前途的大資料應用型別。

編譯丨核子可樂