大資料應用的關鍵點是資料來源、產品化和價值創造;資料資源分佈不均,大資料應用在資料密集領域更易獲得突破;須對不當的行業管理模式進行改革,以促進大資料在已有各個行業中應用。

大資料貴在應用。當前,在國家層面,國務院出臺《促進大資料發展行動綱要》;在地方層面,大資料被作為區域發展戰略引擎;在企業層面,各類大資料概念公司方興未艾、蓬勃發展。我們獨關注大資料應用,關注資料從哪裡來、資料怎麼用、成果誰買單,也就是資料來源、產品化和價值創造三個關鍵點。一個好的大資料應用,從技術上可能很複雜,但從業務模式上應當簡單、直白、管用。我們還關注,是否存在若干”資料密集型”行業或領域,大資料應用在這些領域可能更容易開展。在產業政策方面,我們關注作為新興業態的大資料,過去屢試不爽的做法,如給地、給錢、給專案等,是否還會繼續有效?

大資料應用的三個關鍵點

國務院《促進大資料發展行動綱要》(簡稱《大資料綱要》)將大資料定位為”新一代資訊科技和服務業態”,賦予大資料”推動經濟轉型發展””重塑國家競爭優勢””提升政府治理能力”的戰略功能,並將資料界定為”國家基礎性戰略資源”。在應用方面,《大資料綱要》在公共領域提出許多發展方向,如巨集觀調控科學化、政府治理精準化、商事服務便捷化、安全保障高效化、民生服務普惠化;在產業層面,主要按行業領域劃分為工業大資料、新興產業大資料、農業農村大資料、萬眾創新大資料,以及大資料產品體系和大資料產業鏈。這些方向,只是大資料應用的潛力和空間,能不能應用起來,能不能發揮作用,還得看有沒有可行模式和實際效果。無論是在公共領域還是在產業層面,大資料應用都離不開資料來源、處理技術和方法、創造價值的模式,這是我們關注的重點。概括來說,需要回答下面三個看似簡單、卻是關鍵的問題。

(一)資料從哪裡來

關於資料來源,普遍認為網際網路及物聯網是產生並承載大資料的基地。網際網路公司是天生的大資料公司,在搜尋、社交、媒體、交易等各自核心業務領域,積累並持續產生海量資料。物聯網裝置每時每刻都在採集資料,裝置數量和資料量都與日俱增。這兩類資料資源作為大資料金礦,正在不斷產生各類應用。國外關於大資料的成功經驗介紹,大多是這類資料資源應用的經典案例。還有一些企業,在業務中也積累了許多資料,如房地產交易、大宗商品價格、特定群體消費資訊等。從嚴格意義上講,這些資料資源還算不上大資料,但對商業應用而言,卻是最易獲得和比較容易加工處理的資料資源,也是當前在國內比較常見的應用資源。

在國內還有一類是政府部門掌握的資料資源,普遍認為質量好、價值高,但開放程度低。《大資料綱要》把公共資料互聯開放共享作為努力方向,認為大資料技術可以實現這個目標。實際上,長期以來政府部門間資訊資料相互封閉割裂,是治理問題而不是技術問題。面向社會的公共資料開放願望十分美好,恐怕一段時間內可望不可及。在資料資源方面,國內”小資料””中資料”應用並不充分,試圖一步跨入大資料時代,藉機一併解決前期資訊化過程中沒能解決的問題,前景並不樂觀。另外,由於中國網際網路公司業務主要在國內,其大資料資源也不是全球性的。

資料從哪裡來是我們評價大資料應用的第一個關注點。一是要看這個應用是否真有資料支撐,資料資源是否可持續,來源渠道是否可控,資料安全和隱私保護方面是否有隱患。二是要看這個應用的資料資源質量如何,是”富礦”還是”貧礦”,能否保障這個應用的實效。對於來自自身業務的資料資源,具有較好的可控性,資料質量一般也有保證,但資料覆蓋範圍可能有限,需要藉助其他資源渠道。對於從網際網路抓取的資料,技術能力是關鍵,既要有能力獲得足夠大的量,又要有能力篩選出有用的內容。對於從第三方獲取的資料,需要特別關注資料交易的穩定性。資料從哪裡來是分析大資料應用的起點,如果一個應用沒有可靠的資料來源,再好、再高超的資料分析技術都是無本之木。

(二)資料怎麼用

資料怎麼用是我們評價大資料應用的第二個關注點。大資料只是一種手段,並不能無所不包、無所不用。我們關注大資料能做什麼、不能做什麼,現在看來,大資料主要有以下幾種較為常用的功能。

追蹤。網際網路和物聯網無時無刻都在記錄,大資料可以追蹤、追溯任何一個記錄,形成真實的歷史軌跡。追蹤是許多大資料應用的起點,包括消費者購買行為、購買偏好、支付手段、搜尋和瀏覽歷史、位置資訊,等等。

識別。在對各種因素全面追蹤的基礎上,通過定位、比對、篩選,可以實現精準識別,尤其是對語音、影像、視訊進行識別,使可分析內容大大豐富,得到的結果更為精準。

畫像。通過對同一主體不同資料來源的追蹤、識別、匹配,形成更立體的刻畫和更全面的認識。對消費者畫像,可以精準推送廣告和產品;對企業畫像,可以準確判斷信用及風險。

提示。在歷史軌跡、識別和畫像基礎上,對未來趨勢及重複出現的可能性進行預測,當某些指標出現預期變化或超預期變化時給予提示、預警。以前也有基於統計的預測,大資料大大豐富了預測手段,對建立風險控制模型有深刻意義。

匹配。在海量資訊中精準追蹤和識別,利用相關性、接近性等進行篩選比對,更有效率地實現產品搭售和供需匹配。大資料匹配功能是網際網路約車、租房、金融等共享經濟新商業模式的基礎。

優化。按距離最短、成本最低等給定的原則,通過各種演算法對路徑、資源等進行優化配置。對企業而言,提高服務水平、提升內部效率;對公共部門而言,節約公共資源、提升公共服務能力。

當前許多貌似複雜的應用,大都可以細分成以上幾種型別。例如,貴州推行的”大資料精準扶貧專案”,從大資料應用角度,通過識別、畫像,可以對貧困戶實現精準篩選和界定,找準扶貧物件;通過追蹤、提示,可以對扶貧資金、扶貧行為和扶貧效果進行監控和評估;通過配對、優化,可以更好地發揮扶貧資源的作用。這些功能也並不都是大資料所特有的,只是大資料遠遠超出以前的技術,可以做得更強大、更精準、更快、更好。

(三)成果誰買單

成果誰買單是我們評價大資料應用的第三個也是最後一個關注點。道理很簡單,不創造價值的應用不是好應用。我們關注大資料的應用是否實實在在地提升了能力、改善了績效。如果大資料用於自身的產品設計、營銷推廣、資源配置,那就看企業競爭力是不是提升了,看企業最終是不是比以前更賺錢了。如果大資料用於為第三方提供服務,那就看是不是有人願意付費、願意持續付費。但如果是用於公共領域,還要看政府或公共部門的付費值不值,不僅僅是從出資方的視角看值不值,還要從老百姓的視角看值不值。

當我們面對一項大資料應用時,只要簡單問一問上面三個問題–資料從哪裡來、資料怎麼用、成果誰買單,就能揭開許多”偽裝”。當然,如果經得起上述”大資料三問”,也並非一定算得上優秀,卻也離優秀的大資料應用不遠了。

尋找資料密集型領域

既然大資料被視為一種資源,那就要考慮資源分佈的問題。一般而言,資源分佈是極不均勻的,如水、礦產、耕地、能源等自然資源;人力資源和知識的分佈更是不均。大資料是否也存在分佈不均的問題?發展大資料產業是否真的能彎道超車?這些問題值得深入思考。

與可以探測的自然資源不同,資料資源分佈難以定位和刻畫。不過,可以用大資料人力資源分佈狀況來間接反映大資料應用在地區、行業間的差異,哪些行業、哪些地區大資料人力資源密集,這些行業和地區就可以看作是資料密集的。

我們對兩家主流招聘網站”前程無憂”和”智聯招聘”2014年下半年以來發布的招聘資訊進行篩選,得到兩家網站兩年來共釋出相關資訊涉及企業22.7萬家,職位100.7萬個,資料量確實足夠”大”。通過分地區、分行業進行彙總分析,結果顯示大資料人力資源分佈極不均勻,各地區、各行業差異極大。不過,確切來說,通過招聘網站反映的是人才需求情況,並不是嚴格意義上的人力資源存量分佈情況,但這兩者是緊密相關的。

從大資料相關崗位工作地來看,北京、廣東、上海三地高度密集,遙遙領先於其他地區。三地相加,釋出招聘資訊企業數在兩家網站佔到52.35%和47.48%,職位數佔到61.23%和56.74%。可以推測,大資料人力資源的半壁江山都集中在這三個地方,這與我們平時的直觀感受是高度一致的。在這三個地方之外,我們關心是不是地方政府重視大資料產業、將大資料作為區域經濟發展引擎,就可能促進人力資源集聚,就可能超越與自己相似經濟發展水平的其他地區。從資料反映情況看,至少目前還看不到這樣的結果,這揭示出人力資源結構是後發地區發展大資料產業最需要彌補的短板和最難克服的困難。改變一個地方人力資源構成的難度要遠遠大於改變地面建築面貌,要麼需要一個長期的過程,要麼需要一個獨特的制度。

即便在同一省份內,大資料人力資源分佈也極為不均。例如在廣東,單深圳一市就大體佔到了全省的一半。再加上廣州,竟然能夠達到九成。其他地方,即使經濟實力不俗,但與深圳、廣州相比,在大資料人力資源方面相差甚遠。這再次表明,大資料人力資源分佈是極不均勻的。顯然,大資料人力資源密集地區發展大資料產業的基礎要優於人力資源貧瘠的地區。

從城市排名看,北上深廣可以視作大資料人力資源需求密集的一線城市,杭州、南京、成都、武漢、西安等可以看作二線城市。大資料人力資源分佈與城市經濟實力、活力乃至房價水平都是大體一致的。

從行業分佈看,對大資料人力資源的需求分佈更不均勻,主要集中在網際網路、資訊科技及計算機相關行業。這充分說明了大資料是網際網路或IT產業的一部分,是在原有基礎上的新發展。這些行業是典型的”資料密集型”行業,是大資料產業發展的搖籃。

金融是另一個特別重要的”資料密集”領域。金融行業既是產生資料尤其是有價值資料的基地,又是資料分析服務的需求方和應用地。更為重要的是,金融行業具備充足的支付能力,將是大資料產業競爭的重要戰場。許多大資料是通過在金融領域的應用輻射到了各個行業。

除此之外,電信、專業服務(如諮詢、人力資源、財會)、教育培訓、影視媒體、網路遊戲等,相對而言也是當前資料較為密集的行業。

《大資料綱要》幾乎面面俱到地對所有行業和領域都規劃了大資料應用的廣闊前景,但資料資源分佈極為不均,在”資料密集”領域的大資料應用,取得市場成功的可能性較大。

大資料需要什麼樣的產業政策

大資料應用需要什麼樣的產業政策?從應用的角度來看,大資料並非一個全新的產業,而是與已有產業融合,對已有模式的改造、升級和替代。制約大資料發展的往往並不是大資料本身,而是大資料所應用的行業和領域原本存在的問題,如行業管制、行政壟斷、要素不能自由流動,等等。因此,促進大資料發展,用給地、貼錢、上專案的方法,並不能解決根本問題。要從大資料應用領域角度,對不當的行業管理模式進行改革,對既有利益格局進行調整,使大資料應用具備必要的條件。即使在企業內部,大資料應用也不僅僅是個技術問題,而是涉及業務流程重組和管理模式變革,是對企業管理能力的一個考驗。

金融、電信、教育、影視媒體等”資料密集型”行業,既是大資料應用潛力巨大的領域,也是迫切推進行業改革的重點領域。另一方面,大資料的應用也可以為行業改革提供技術支撐,能以更有效的技術路線實現行業發展目標。

大資料應用需要的產業政策其實就是市場經濟下各個行業發展所應有的政策,如放開准入、公平競爭、減輕企業負擔、消除企業所有制歧視、消除企業規模歧視,等等。只有在一個開放的產業環境中,大資料才能在這些產業得以有效運用。一個地方若要在金融、醫療、教育等領域大力推動大資料運用,最管用的政策就是對這些行業進行有力的改革。