我們所處的社會已經從IT(Information Technology)時代全面跨入DT(Data Technology)時代,資料滲透到當今每一個行業和業務職能領域,成為關鍵的生產要素之一。從Gartner釋出的大資料技術成熟度曲線圖中可以看出,大資料已不在是停留在概念層面,而是正式進入了產業化應用程式中。據統計,僅全球交通、教育、消費、電力、能源、健康與金融等7大重點領域的大資料應用潛在價值就在3.2萬億-5.4萬億元左右,大資料潛在發展空間巨大。
然而,從中國資訊通訊研究院的另一組資料表明,國內實際的應用情況尚有差距,據統計有44%的企業還沒有大資料部署和應用,24%的部署了但未實現大資料應用,只有1/3的企業初步應用了大資料,是什麼制約了大資料的快速普及之路? 中國工程院院士、中國網際網路協會理事長鄔賀銓院士在2017大資料產業峰會上表示:”資料資源的流動性和可獲取性是大資料應用和產業發展的基礎,直接關係到大資料價值的實現情況。”
傳統的統計分析經常是對單一資料來源(營銷資料、行政報表、問卷調查、人口普查等)進行深入的追蹤和分析。分析人員對資料的來源和結構有一定的控制和深層的瞭解。但在大資料時代,資料來源是多樣的、多種形態的,海量的資料常常是半結構或無結構的。從資料獲取到最終的資料價值呈現要經歷資料從源頭接入、處理、儲存計算到分析挖掘、應用、服務的完整資料生命週期。這就要求資料科學家和分析師駕馭多樣、多源的資料,將它們梳理後進行挖掘和分析。在這個過程中,資料融合就成為不可或缺的一步。
所謂資料融合,是以產生決策智慧為目標將多種資料來源中的相關資料提取、融合、梳理整合成一個分析資料集合,實現資料資源的流動和易獲取,從而支撐多樣並呈碎片化的商業智慧服務使用。來自賽迪智庫的調研,現實中實施的大資料專案至少有80%的時間和經費花在了資料準備上,其中多源資料的融合是最耗費資源的任務之一。紐約時報也曾報導: “資料科學家把高達80%的時間用於資料準備而不是用來發現新的商業智慧”。
伴隨著人們對資料應用價值的不斷渴求,區別於傳統資料統計的需求,使用者對大資料的資料準備有著更高的要求:
- 多源。除了眾所周知的資料開放度的影響之外,多源資料融合的另一個瓶頸在於如何打破原有垂直建設系統間的資訊孤島、構造統一的整體的資料平臺,把分散但相互有關聯的資料以整體的視角看待和思考並進行管理,並且通過這樣的統一平臺,對上層碎片化的或需要快速迭代的大資料應用進行有效、良好的支撐。比如在資料抓取中,要充分考慮傳統企業已經具備大量系統存在的情況,而對於這些系統在不干擾的情況下,如何能夠把資料準確、高效、實時的拿得出來,快速認清企業有什麼樣的資料原材料。這在非常多的尤其是政府、大型企業裡面是個很大的挑戰。另外,資料進來之後,因為系統和系統之間的建設時間是不同的,資料的表現形態也是各異的,我們要對這些資料進行橫向之間的處理並且能把這些資料關聯起來,讓分散的資料形成一個整體,這都是資料融合過程中所要解決的問題。
- 實時。萬物互聯的趨勢下,人們不僅對於資料的數量,也對資料的時效性提出了愈來愈高的要求,有一組資料表明12%的管理者都能認識到資料對於企業或組織的巨大影響,然而,53%的管理者認為太多的核心資訊不能及時獲得。特別是在某些連續性業務運轉的應用場景下,比如通訊、金融、安全領域等,需要通過大資料技術對業務資料進行實時同步的收集、整合與挖掘分析,用以指導甚至是隨時根據資料變化而調整業務策略,而不是把業務系統停掉先分析再作出決策。對未來的預測遠比做事後諸葛更能體現大資料的潛在價值。
海量。在DT時代,資料量急劇爆發,據IDC預測,目前全球每年資料的生產量是 8ZB( 1ZB=1024EB),2020 年將達到 40ZB。我們已經從“傳統網際網路”時代的“線上資料化”階段和“網際網路+”時代的“線下資料化”階段,快速進入了“資料流通時代”,即線上線下全產業實現資料化,資料在產業鏈上下游甚至跨產業流通並創造價值的階段。在這一過程中,目前資料的生產速度和能力遠遠大於我們對其使用和價值變現的速度和能力。對資料業務價值的高期望值和落後的資料整合方案之間的矛盾日漸突出。網際網路、物聯網、雲端計算,我們的業務系統每時每刻都在產生著大量的不同來源的資料,如何及時、有效、全面的捕獲到這些資料是另外一個會直接影響資料價值體現的關鍵因素。
多源、實時和海量,是大部分大資料應用中的普遍性要求,特別是在智慧城市等具有跨行業、跨系統、跨職能整合需要的資訊化專案中,科學高效的資料融合方案至關重要。前不久,在“2017大資料產業峰會”上,湖北省升級政務雲“楚天雲”專案就憑藉其創新的資料融合模式榮膺“2017年度政務大資料優先應用案例獎”。作為“智慧湖北”建設的核心工程,“楚天雲”是目前國內安全等級最高、規模最大、技術領先的省級政務雲之一,承載了湖北省的52個省直部門的330個應用系統的各類海量政府核心資料。
在“楚天雲”建設之初面對數量龐大的多個系統,資料的流通和融合面臨巨大的難題。在經過充分的調研和技術對比後,“楚天雲”選擇了資料交換樞紐平臺的思路,採用目前國內領先的大資料技術廠商—翱旗科技的R7系列產品技術,把資料交換平臺架設於楚天雲自身的IaaS雲平臺之上,通過資料整合互動技術和資料資產管理技術,消除不同操作平臺、不同型別資料庫、不同結構資料之間的堡壘邊界,真正做到資料層面的互通、整合、聯動,實現了資料間的無障礙互通。同時,通過非侵入式、無程式碼圖形化集中管控,為管理者和使用者提供了高度易用性和低成本的管理運維模式。在“楚天雲”的後續應用中,將通過建設這一資料交換樞紐平臺,在省級範圍內建立起一種資料大平臺與碎片化應用結合的資料生態系統,構建起從資料產生到資料應用的整套機制,提高資料的活躍度和利用率,讓資料價值得以真正呈現。目前,建成後的“楚天雲”資料交換樞紐平臺能夠達到秒級傳輸幾百G的資料量,業務端和資料平臺端資料幾乎同步,完全能夠滿足管理決策者對於海量資料實時互動的需求,使具體業務場景下的效率提升,縮短決策時間,讓大資料價值得以體現。從資料融合角度看,“楚天雲”案例,在“智慧政務”領域為其他智慧城市專案提供了可參考借鑑的成功實踐。
作為“楚天雲”資料交換樞紐平臺的建設者之一,翱旗科技定位於資料基礎科學研究,並擁有領先自主核心技術,所研發的產品以通用化為基礎、自動化為實現方式、智慧化為目標,在“資料採集與融合、資料管理、儲存、挖掘與分析、視覺化”整個資料生命週期中形成了獨有的產業閉環。在“楚天雲”專案中,翱旗以資料融合為核心思路,基於資料底層技術,針對任何資料型別,通過對資料的實時感知、處理和管理等賦能過程,將繁瑣、複雜、高難度、高風險的資料需求標準化和元件化,能夠完成對省級多源海量資料的融合管理,為“智慧湖北”提供資料層面的完全支撐。除了應用於智慧城市專案中,翱旗科技還進一步把資料融合技術進行了產品化。據悉,2017年4月13日,翱旗科技將正式釋出針對大資料領域的系列通用化產品,包括資料整合互動產品和分散式資料庫產品等,能夠把大資料領域的系列技術和服務轉化成標準化、通用化的產品,這在國內尚屬首次。
最近幾年,像翱旗這樣的國內外大資料技術公司開始紛紛將資料處理整合過程中相關技術集合、組合,提升後開發出專門用於資料融合的新工具。應用這些直觀、可視、高效的軟體工具,資料準備過程的工效大大提高,在一定程度上解決了資料融合的技術瓶頸。2016年Gartner公司資料管理和分析軟體工具的評估報告顯示,資料融合處理類自我服務式資料準備軟體(Self-service Data Preparation)已成為發展最快的工具之一。伴隨著大資料應用需求的日益深入和普及,面向解決資料融合問題的通用化技術產品無疑將迎來更多的發展機會。