很多資料分析專家都對大資料抱有很大的希望。但是在預測分析世界大會上,演講者講到預測分析模型,對大資料並不是很樂觀。

StatSoft的高階資料分析師兼資料探勘顧問Gary Miner表示:“大資料對我來說只是一個炒得很熱的概念,並沒有什麼新鮮的。”

Miner認為,對於大資料究竟是什麼,仍存在爭議。廣為流傳的是IBM提出的三個V,即規模大、速度快和種類多。但是,要想用一個精確地量來定義“大”資料,這本身就是不精確的。有人說幾TB,有人說幾百TB。

樣本代替總量

Miner的感受是,對大資料,人們言過其實了。相反,分析小規模資料集倒來的更實際。他舉了一些醫學實驗如何透過不足100的病例取得研究成果的例子。因為更小、更精良的資料集更容易過濾“噪聲”,獲得“訊號”。

儲存空間的成本正在降低,這讓分析界傾向於分析全部資料集。不過Miner 認為透過隨機樣本,你會更快速地獲得更好的結果。

“如果你想從資料中挖掘因果關係,你最好分析小資料集。”

旅遊社群TripAdvisor商業部門的分析總監Michael Berry表示,在大資料時代,人們希望透過部署一個技術,就可以解決多種問題。供應商們正在積極迎合這種需求,聲稱自己的大資料軟體可以極大地簡化業務分析專案。但Berry認為,這種簡單便捷的解決方案基本上只是一種幻想。

“這只是一種營銷策略,從來沒有實現過。”

Berry建議,與其坐等大資料軟體來解決一切問題,不如去提升自己的預測模型。定義預測模型的變數要比放入模型中的大規模資料有用的多。

Berry認為,在模型中加入更多的資料反而會增加分析的時間。在分析資料集的時候,樣本足以揭示總量的規律,而且更快捷。如果分析了100個資料節點之後,樣本已經顯而易見了,就不需要繼續分析剩下的十萬個資料節點了。這樣只會延長專案,降低收益。

資料質量

並不是每一個人都這樣看衰大資料。廣告代理商Carmichael Lynch的資料分析戰略家Peter Amstutz認為,在建立預測模型的時候,儘可能多的收集資料變數是很重要的。有時,可以透過一個標準記錄的資料來源積累資訊變數,但很多時候,組織會得到大量的非結構化資料。這時,大資料就派上用場了。

Amstutz最近幫助Subaru部署了一個提升建模專案,汽車製造商可以透過它更精確地鎖定目標客戶。Amstutz表示,他一直在尋找包含客戶資訊的新的資料來源,以便於建立目標客戶的個人檔案。參照這些變數,廣告商就可以更精確地找到目標客戶。

資料分析供應商ForeSee移動、媒體和娛樂的高階總監Eric Feinberg認為,最重要的是資料的質量,而不是規模。大資料只有在標準和精確的條件下才有用。

他強調,不同行業應用大資料分析有所不同。在研究銷售趨勢的時候,明顯的峰值只會增加噪點,讓人難以判斷真實的趨勢。而在欺詐檢測中,峰值正是分析人員要分析的。所以使用少量樣本的時候,銷售預測效果較好,但要進行欺詐檢測,就得依靠大資料了。

另一方面,更傳統的方法或許效果更佳。Feinberg舉了醫療器械公司想要完善心臟病客戶個人檔案的例子。醫療器械公司可以透過收集大資料找到相似客戶的共同點,或者花錢找幾個心臟病患者過來。

“兩者是一樣的。甚至後者更難,因為它要花費更多的時間,但結果是一個成熟的資料集。”

via:TechTarget