20150720104836_925071

我曾經跟一位美國零售集團的高管交流,得知數年前當傳統零售業已經意識到電子商務所帶來的威脅時,除了大量招聘資料科學家之外,第一件事情就是去收集線上對手大量的實時商品資料。經歷了幾年後,如今美國的大型零售公司都已經具備選品、動態定價及多終端多渠道的管理能力。為了支援每一秒鐘與對手的競爭,你可以想象收集更廣更實時資料的重要性,即便是一個簡單的天氣變化都有可能讓你當前商品的競爭力落後於對手。
兵法雲:“知己知彼,百戰不殆”,對於企業應該如何使用資料,這一句是最貼切的。當很多公司來問我該怎麼使用資料的時候,我必然會告訴他用資料瞭解自己(知己)是使用資料的第一步。第二步就是用資料來了解競爭對手(知彼),並從對手的動態變化中做出攻守判斷。大資料的首要關鍵就在於如何量化資料大小與決策好壞的關係。

你可能會問這麼高難度的事情,小企業如何跟得上呢?好訊息是,在這幾年中,美國的大資料生態已經逐步走向平民化。

最近美國一家專注資料收集爬取的公司就讓我眼前一亮。這家公司叫做Import.io,曾被多次評選為最佳創業公司。因為網際網路是世界上最大的開放資料來源。通過他們的工具, 使用者可以瞬間將任何網站轉化為資料表格或API. Import.io每天從網際網路上搜集千萬條記錄, 至今已經從30萬個網站上收集了上千億條資料記錄。Import.io在同類公司中技術領先。目前該工具對個人使用者免費開放, 對企業使用者則源源不斷地提供大規模,定製化,並有質量保證的資料。

讓我感到興奮的是,他們把釆集半結構化資料這項本來只有技術工程師才能做的事變成了人人都可使用的平民化服務。而健康的大資料生態應該是可以讓資料從收集、加工到應用的各個環節變得越來越精細,整個資料處理的過程形成一個互惠互利的產業鏈,大家都在大資料的海洋中共同分工協作。

我們不得不讚嘆美國大資料產業鏈的發達。在這樣一個發達的資料產業鏈中,有人做資料的中間層,比如把天氣跟零售的資料關聯起來給需要的人使用;有人把機器學習的門檻降低,變成MLS(Machine Learning as a  Service),讓不懂資料的人也具備資料學習的能力;也有人把資料視覺化變得簡單易用的工具。Import.io這樣的公司就把資料收集變成水電煤一樣每個人都能使用的服務。

雖然大資料從原始資料到加工到使用是很長的鏈條,但如果有好的資料生態和產業鏈,每個人專注其中的一個環節,各司其職,分工協作,就能把資料的價值發揮到最大。希望在不遠的將來,中國也能跟美國一樣,早日建立豐富完整的資料產業鏈。

【本文發表於香港信報,作者:車品覺】