中國大資料行業面臨的五大挑戰以及應對策略

manfenqiyewang發表於2014-11-26

大資料,可謂當下IT領域最時髦的詞,簡單說就是從各種資料中快速獲取價值資訊的能力。

美國是最早發現和使用大資料科學價值的國家。2012年3月,奧巴馬政府宣佈投資2億美元拉動大資料相關產業發展,將“大資料戰略”上升為國家戰略,奧巴馬政府甚至將大資料定義為“未來的新石油”。當時美國政府宣告說透過提高美國從大型複雜的資料集中提取知識和管理的能力,來加強整個國家的競爭力,這被認為是跟網際網路同一個級別的時代。顯然,大資料不止是一個詞彙,更是一門技術,是一個產業時代。

而中國作為世界上人口最多、GDP排名第二的國家,成立大資料國家隊是非常及時的。大資料的精髓在於“大”,它不是抽樣而是全樣,它不是盲人摸到的象腿或者是象鼻子,而是整個大象本身,大資料的精妙處在於用的人越多越增持,透過這樣一個模糊的宏觀判斷,能夠完成一個精準的個體推薦,從而會讓整個生產效率得到極大提高。

不過作為一個新生領域,儘管大資料意味著大機遇,擁有巨大的應用價值,但同時也遭遇工程技術、管理政策、人才培養、資金投入等諸多領域的大挑戰。只有解決這些基礎性的挑戰問題,才能充分利用這個大機遇,讓大資料為企業為社會充分發揮的最大價值與貢獻。

挑戰一:資料來源錯綜複雜

豐富的資料來源是大資料產業發展的前提。而我國數字化的資料資源總量遠遠低於美歐,每年新增資料量僅為美國的7%,歐洲的12%,其中政府和製造業的資料資源積累遠遠落後於國外。就已有有限的資料資源來說,還存在標準化、準確性、完整性低,利用價值不高的情況,這大大降低了資料的價值。

現如今,幾乎任何規模企業,每時每刻也都在產生大量的資料,但這些資料如何歸集、提煉始終是一個困擾。而大資料技術的意義確實不在於掌握規模龐大的資料資訊,而在於對這些資料進行智慧處理,從中分析和挖掘出有價值的資訊,但前提是如何獲取大量有價值的資料。

未來,資料採集是一個很大的市場,因為分析的資料模型可以根據需求和思維做,但所有的前提是你的資料採集要準,現在的問題一個是採集不到,一個是採集錯了,還有一個是採集效率受到網路頻寬限制,這幾個都做不到的話資料價值很難用起來。

大資料時代,我們需要更加全面的資料來提高分析預測的準確度,因此我們就需要更多便捷、廉價、自動的資料生產工具。除了我們在網上使用的瀏覽器有意或者無意記載著個人的資訊資料之外,手機、智慧手錶、智慧手環等各種可穿戴裝置也在無時無刻地產生著資料;就連我們家裡的路由器、電視機、空調、冰箱、飲水機、淨化器等也開始越來越智慧並且具備了聯網功能,這些家用電器在更好地服務我們的同時,也在產生著大量的資料;甚至我們出去逛街,商戶的WIFI,運營商的3G網路,無處不在的攝像頭電子眼,百貨大樓的自助螢幕,銀行的ATM,加油站以及遍佈各個便利店的刷卡機等也都在產生著資料。

隨著移動互聯、雲端計算等技術的飛速發展,無論何時何地,手機等各種網路入口以及無處不在的感測器等,都會對個人資料進行採集、儲存、使用、分享,而這一切大都是在人們並不知曉的情況下發生。你的一舉一動、地理位置、甚至一天去過哪些地方,都會被記錄下來,成為海量無序資料中的一個數列,和其他資料進行整合分析。

比如,當你用手機掃描二維碼,並將其用微博轉發的時候,你的消費習慣、偏好,甚至你的社交圈子的資訊,就已經被商家的大資料分析工具捕獲。大資料平臺在提供服務的同時,也在時刻收集著使用者的各種個人資訊:消費習慣、閱讀習慣甚至生活習慣。這些資料,一方面給人們帶來了諸多便利,但另一方面,由於資料的管理還存在漏洞,那些釋出出去或儲存起來的海量資訊,也很容易被監視、被竊取。

大資料散發出不可估量的商業價值。但讓人感到不安的是,資訊採集手段越來越高超、便捷和隱蔽,對公民個人資訊的保護,無論在技術手段還是法律支撐都依然捉襟見肘。人們面臨的不僅是無休止的騷擾,更可能是各種犯罪行為的威脅。大資料時代,誰來保護公民的個人隱私?既是每個人都應當思考的問題,也是政府部門不可推卸的責任。

挑戰二:資料探勘分析模型建立

步入大資料時代,人們紛紛在談論大資料,似乎這已經演化為新的潮流趨勢。資料比以往任何時候都更加根植於我們生活中的每個角落。我們試圖用資料去解決問題、改善福利,並且促成新的經濟繁榮。人們紛紛流露出去大資料的高期待以及對大資料分析技術的格外看好。然而,關於大資料分析,人們鼓吹其神奇價值的喧囂聲浪很高,卻鮮見其實際運用得法的模式和方法。造成這種窘境的原因主要有以下兩點:一是對於大資料分析的價值邏輯尚缺乏足夠深刻的洞察;其次便是大資料分析中的某些重大要件或技術還不成熟。大資料時代下資料的海量增長以及缺乏這種大資料分析邏輯以及大資料技術的待發展,正是大資料時代下我們面臨的挑戰。

大資料的大,一般人認為指的是它資料規模的海量。隨著人類在資料記錄、獲取及傳輸方面的技術革命,造成了資料獲得的便捷與低成本,這便使原有的以高成本方式獲得的描述人類態度或行為的、資料有限的小資料已然變成了一個巨大的、海量規模的資料包。這其實是一種片面認識。其實,前大資料時代也有海量的資料集,但由於其維度的單一,以及和人或社會有機活動狀態的剝離,而使其分析和認識真相的價值極為有限。大資料的真正價值不在於它的大,而在於它的全面:空間維度上的多角度、多層次資訊的交叉復現;時間維度上的與人或社會有機體的活動相關聯的資訊的持續呈現。

另外,要以低成本和可擴充套件的方式處理大資料,這就需要對整個IT架構進行重構,開發先進的軟體平臺和演算法。這方面,國外又一次走在我們前面。特別是近年來以開源模式發展起來的Hadoop等大資料處理軟體平臺,及其相關產業已經在美國初步形成。而我國資料處理技術基礎薄弱,總體上以跟隨為主,難以滿足大資料大規模應用的需求。如果把大資料比作石油,那資料分析工具就是勘探、鑽井、提煉、加工的技術。我國必須掌握大資料關鍵技術,才能將資源轉化為價值。應該說,要邁過這道坎,開源技術為我們提供了很好的基礎。

因此,現在已經有很多企業開始意識到,要想真正在Hadoop平臺上做資料分析、資料探勘的應用,有兩種選擇,要麼就是匯聚一個懂資料、懂分析、懂程式設計又要有技巧的技術團隊來操作,要麼就是選擇某家商業公司推出的成熟的大資料平臺。

總而言之,目前儘管計算機智慧化有了很大進步,但還只能針對小規模、有結構或類結構的資料進行分析,談不上深層次的資料探勘,現有的資料探勘演算法在不同行業中還難以通用。

挑戰三:資料開放與隱私的權衡

資料應用的前提是資料開放,這已經是共識。有專業人士指出,中國人口居世界首位,但2010年中國新儲存的資料為250PB,僅為日本的60%和北美的7%。目前我國一些部門和機構擁有大量資料但寧願自己不用也不願提供給有關部門共享,導致資訊不完整或重複投資。2012年中國的資料儲存量達到64EB,其中55%的資料需要一定程度的保護,然而目前只有不到一半的資料得到保護。

下面,我們來看一下美國在資料開放方面的做法。美國政府提供政策和經費保障,使資料資訊中心群成為國家資訊生產和服務基地,保障資料資訊供給不斷,利用網路把資料和資訊最便捷、及時地送到包括科學家、政府職員、公司職員、學校師生在內所有公民的桌上和家庭中,把全社會帶進了資訊化時代。

縱觀國內,我國政府、企業和行業資訊化系統建設往往缺少統一規劃和科學論證,系統之間缺乏統一的標準,形成了眾多“資訊孤島”,而且受行政壟斷和商業利益所限,資料開放程度較低,以鄰為壑、共享難,這給資料利用造成極大障礙。制約我國資料資源開放和共享的一個重要因素是政策法規不完善,大資料探勘缺乏相應的立法,畢竟我國還沒有國家層面的專門適合資料共享的國家法律,只有相關的條例、法規、章程、意見等。無法既保證共享又防止濫用,一方面欠缺推動政府和公共資料的政策,另一方面資料保護和隱私保護方面的制度不完善抑制了開放的積極性。因此,建立一個良性發展的資料共享生態系統,是我國大資料發展需要邁過去的一道砍。

開放與隱私如何平衡,亦是一大難題。任何技術都是雙刃劍,大資料也不例外。如何在推動資料全面開放、應用和共享的同時有效地保護公民、企業隱私,逐步加強隱私立法,將是大資料時代的一個重大挑戰。

全社會開放與共享資料還很難,這讓資料質量大打折扣。資料增值的關鍵在於整合,但自由整合的前提是資料的開放。在大資料的時代,開放資料的意義,不僅僅是滿足公民的知情權,更在於讓大資料時代最重要的生產資料、生活資料自由地流動起來,準確全面應用起來,以推動知識經濟和網路經濟的發展,促進中國的經濟增長由粗放型向精細型轉型升級。然而戰略觀念上的缺失、政府機構協調困難、企業對資料共享的認識不足及投入不夠、科學家對大資料的渴望無法滿足等都是大資料在當前我國發展應用中不得不面對的困難。

挑戰四:大資料管理與決策

大資料的技術挑戰顯而易見,但其帶來的決策挑戰更為艱鉅。大資料至關重要的方面,就是它會直接影響組織怎樣作決策、誰來作決策。在資訊有限、獲取成本高昂且沒有被數字化的時代,組織內作重大決策的人,都是典型的位高權重的人,要不然就是高價請來的擁有專業技能和顯赫履歷的外部智囊。但是,在今時今日的商業世界中,高管的決策仍然更多地依賴個人經驗和直覺,而不是基於資料。

大資料開發的根本目的是以資料分析為基礎,幫助人們做出更明智的決策,最佳化企業和社會運轉。哈佛商業評論說,大資料本質上是“一場管理革命”。大資料時代的決策不能僅憑經驗,而真正要“拿資料說話”。因此,大資料能夠真正發揮作用,深層次看,還要改善我們的管理模式,需要管理方式和架構的與大資料技術工具相適配。這或許是我們最難邁過的一道坎了。

大資料應用領域仍窄小,應用費用過高,制約大資料應用。國內能利用大資料背後產業價值的行業主要集中在金融、電信、能源、證券、菸草等超大型、壟斷型企業,其他行業談大資料價值為時尚早。隨著企業內部的資料量愈來愈大,日後大資料將成為IT支出中的主要因素,特別是資料儲存所耗費的成本,很可能造成企業負擔,甚至望而卻步。因此有遠見的CIO必須預先做好準備。

挑戰五:大資料人才缺口

如果說,以Hadoop為代表的大資料是一頭小象,那麼企業必須有能夠馴服它的馴獸師。在很多企業熱烈擁抱這類大資料技術時,精通大資料技術的相關人才也成為一個大缺口。

大資料建設的每個環節都需要依靠專業人員完成,因此,必須培養和造就一支懂指揮、懂技術、懂管理的大資料建設專業隊伍。

可以說,真正啟動大資料在企業和社會的全面應用,面臨的不僅僅是技術和工具問題,更重要的是要轉變經營思維和組織架構,才能真正地挖掘這座大資料“金礦”。那麼在大資料時代,我們要做哪些應對之策,以握戰略制勝之點?

整合與開放是基石

大資料服務創業公司Connotate對800多名商業和IT主管進行了調查。結果顯示,60%受調查者稱:“目前就說這些大資料投資專案肯定能夠帶來良好回報尚為時過早。”之所以如此,是由於當前大資料缺乏必需的開放性:資料掌握在不同的部門和企業手中,而這些部門和企業並不願意分享資料。大資料是透過研究資料的相關性來發現客觀規律,這依賴於資料的真實性和廣泛性,資料如何做到共享和開放,這是當前大資料發展的軟肋和需要解決的大問題。

2012年美國大選,奧巴馬因資料整合而受益。在奧巴馬的競選團隊中有一個神秘的資料探勘團隊,他們透過對海量資料進行挖掘幫助奧巴馬籌集到10億美元資金;他們透過資料探勘使競選廣告投放效率提升了14%;他們透過製作“搖擺州”選民的詳細模型,每晚實施6.6萬次模擬選舉,推算奧巴馬在“搖擺州”的勝率,並以此來指導資源分配。奧巴馬競選團隊相比羅姆尼競選團隊最有優勢的地方:對大資料的整合。奧巴馬的資料探勘團隊也意識到這個全世界共同的問題:資料分散在過多的資料庫中。因此,在前18個月,奧巴馬競選團隊就建立了一個單一的龐大資料系統,可以將來自民意調查者、捐資者、現場工作人員、消費者資料庫、社交媒體,以及“搖擺州”主要的民主黨投票人的資訊整合在一起,不僅能告訴競選團隊如何發現選民並獲得他們的注意,還幫助資料處理團隊預測哪些型別的人有可能被某種特定的事情所說服。正如競選總指揮吉姆·梅西納所說,在整個競選活中,沒有資料做支撐的假設很少存在。

2012年3月,美國奧巴馬政府宣佈投資2億美元啟動“大資料研究和發展計劃”,將“大資料研究”上升為國家意志。一個國家擁有資料的規模和運用資料的能力將成為綜合國力的重要組成部分。國內智慧城市建設目標之一就是實現資料的集中共享。

因此,從社會、國家領域而言,我國亟須在國家層面對大資料給予高度重視,特別需要從政策制定、資源投入、人才培養等方面給予強有力的支援;另一方面,建立良性的大資料生態環境是有效應對大資料挑戰、用好大資料的主要出路,需要科技界、工業界以及政府部門在國家政策的引導下共同努力,透過消除壁壘、成立聯盟、大資料質量標準、建立專業組織等途徑,建立和諧的大資料生態系統。

力推合作共贏的商業模式

隨著雲端計算、大資料技術和相關商業環境的不斷成熟,越來越多的“軟體開發者”正在利用跨行業的大資料平臺,打造創新價值的大資料應用,而且這一門檻正在不斷降低。因為首先,資料擁有者能夠以微乎其微的成本獲取額外的收入,提高利潤水平;其次,大資料裝置廠商需要應用來吸引消費者購買裝置,發展合作共贏的夥伴關係勢必比單純銷售裝置要有利可圖,一些具有遠見的廠商已經開始透過提供資金、技術支援、入股等方式來扶持這些“軟體開發者”;第三,行業細分市場的資料分析應用需求在不斷加大,對於整個大資料產業鏈來說,創新型的行業資料應用開發者必將是未來整個大資料產業鏈中最為活躍的部分。

未來,有三種企業將在”大資料產業鏈“中處於重要地位:掌握海量有效資料的企業,有著強大資料分析能力的企業,以及創新的“軟體開發者”。社交網路、移動網際網路、資訊化企業、電信運營商都是海量資料的製造者,Facebook公司手中掌握著8.5億使用者,淘寶註冊使用者超過3.7億,騰訊的微信使用者突破3億,這些龐大使用者群所提供的資料,正在等待時機釋放出巨大商業能量。可以預測,在不久的將來,Facebook、騰訊、電信運營商等海量資料持有者或者自我延伸成為資料分析提供商,或者與IBM、ZTE等企業密切對接成為上下游合作企業,大資料產業鏈將在某個爆發時點到來之際,以令人驚訝的速度成長壯大。

大資料的殺傷力需防患於未然

大資料時代,傳統的隨機抽樣被“所有資料的匯攏”所取代,人們的思維決斷模式,已可直接根據“是什麼”來下結論,由於這樣的結論剔除了個人情緒、心理動機、抽樣精確性等因素的干擾,因此將更精確、更有預見性。不過,由於大資料過於依靠資料的彙集,一旦資料本身有問題,就很可能出現“災難性大資料”,即因為資料本身的問題,而導致錯誤的預測和決策。

大資料的理論是“在稻草堆裡找一根針”,而如果“所有稻草看上去都挺像那根針”呢?過多但無法辨析真偽和價值的資訊和過少的資訊一樣,對於需要作出瞬間判斷、一旦判斷出錯就很可能造成嚴重後果的情況而言,同樣是一種危害。“大資料”理論是建立在“海量資料都是事實”的基礎上,而如果資料提供者造假呢?這在大資料時代變得更有害,因為人們無法控制資料提供者和蒐集者本人的偏見。擁有最完善資料庫、最先接受“大資料”理念的華爾街投行和歐美大評級機構,卻每每在重大問題上判斷出錯,這本身就揭示了“大資料”的侷限性。

不僅如此,大資料時代造就了一個資料庫無所不在的世界,資料監管部門面臨前所未有的壓力和責任:如何避免資料洩露對國家利益、公眾利益、個人隱私造成傷害?如何避免資訊不對等,對困難群體的利益構成傷害?在有效控制風險之前,也許還是讓“大資料”繼續待在籠子裡更好一些。

大資料的經濟價值已經被人們認可,大資料的技術正逐漸成熟,一旦完成資料的整合和監管,大資料爆發的時代即將到來。我們現在要做的,就是選好自己的方向,為迎接大資料的到來,提前做好準備。

以未來的視角看,無論是政府、網際網路公司、IT企業還是行業使用者,只要我們以開放的心態、創新的勇氣擁抱“大資料”,大資料時代就一定有屬於中國的機會。

大資料人才培養迫在眉睫

大資料相關人才的欠缺將會成為影響大資料市場發展的一個重要因素。據Gartner預測,到2015年,全球將新增440萬個與大資料相關的工作崗位,且會有25%的組織設立首席資料官職位。大資料的相關職位需要的是複合型人才,能夠對數學、統計學、資料分析、機器學習和自然語言處理等多方面知識綜合掌控。未來,大資料將會出現約100萬的人才缺口,在各個行業和領域,大資料中高階人才都會成為最炙手可熱的人才,涵蓋了大資料的工程師、規劃師、分析師、架構師、應用師等多個細分領域和專業。因此需要社會、高校和企業共同努力去培養和挖掘。企業可以與學校聯合培養人才,或建立專門的資料科學家團隊,或與專業的資料處理公司合作,以解人才之急。

當大資料被討論得熱火朝天時,我們更需要冷靜地思考,如何讓技術紮實而有效地落地。雖然距離大資料時代我們還有很長的路要走,但正象孫正義昨天在烏鎮演講時最後說的:“我想說的是,我們要有信心,中國幾年後將成為世界最大的經濟體,人類的未來將充滿了機遇,會充滿了很多的快樂,有很多的光明憧憬等待著我們”。

文章資訊網址免費釋出資訊:

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/29874002/viewspace-1347326/,如需轉載,請註明出處,否則將追究法律責任。

相關文章