預測模型要大資料還是小資料？

DinK發表於2013-12-14

模型大資料

很多資料分析專家都對大資料抱有很大的希望。但是在預測分析世界大會上，演講者講到預測分析模型，對大資料並不是很樂觀。

StatSoft的高階資料分析師兼資料探勘顧問Gary Miner表示：“大資料對我來說只是一個炒得很熱的概念，並沒有什麼新鮮的。”

Miner認為，對於大資料究竟是什麼，仍存在爭議。廣為流傳的是IBM提出的三個V，即規模大、速度快和種類多。但是，要想用一個精確地量來定義“大”資料，這本身就是不精確的。有人說幾TB，有人說幾百TB。

樣本代替總量

Miner的感受是，對大資料，人們言過其實了。相反，分析小規模資料集倒來的更實際。他舉了一些醫學實驗如何透過不足100的病例取得研究成果的例子。因為更小、更精良的資料集更容易過濾“噪聲”，獲得“訊號”。

儲存空間的成本正在降低，這讓分析界傾向於分析全部資料集。不過Miner 認為透過隨機樣本，你會更快速地獲得更好的結果。

“如果你想從資料中挖掘因果關係，你最好分析小資料集。”

旅遊社群TripAdvisor商業部門的分析總監Michael Berry表示，在大資料時代，人們希望透過部署一個技術，就可以解決多種問題。供應商們正在積極迎合這種需求，聲稱自己的大資料軟體可以極大地簡化業務分析專案。但Berry認為，這種簡單便捷的解決方案基本上只是一種幻想。

“這只是一種營銷策略，從來沒有實現過。”

Berry建議，與其坐等大資料軟體來解決一切問題，不如去提升自己的預測模型。定義預測模型的變數要比放入模型中的大規模資料有用的多。

Berry認為，在模型中加入更多的資料反而會增加分析的時間。在分析資料集的時候，樣本足以揭示總量的規律，而且更快捷。如果分析了100個資料節點之後，樣本已經顯而易見了，就不需要繼續分析剩下的十萬個資料節點了。這樣只會延長專案，降低收益。

資料質量

並不是每一個人都這樣看衰大資料。廣告代理商Carmichael Lynch的資料分析戰略家Peter Amstutz認為，在建立預測模型的時候，儘可能多的收集資料變數是很重要的。有時，可以透過一個標準記錄的資料來源積累資訊變數，但很多時候，組織會得到大量的非結構化資料。這時，大資料就派上用場了。

Amstutz最近幫助Subaru部署了一個提升建模專案，汽車製造商可以透過它更精確地鎖定目標客戶。Amstutz表示，他一直在尋找包含客戶資訊的新的資料來源，以便於建立目標客戶的個人檔案。參照這些變數，廣告商就可以更精確地找到目標客戶。

資料分析供應商ForeSee移動、媒體和娛樂的高階總監Eric Feinberg認為，最重要的是資料的質量，而不是規模。大資料只有在標準和精確的條件下才有用。

他強調，不同行業應用大資料分析有所不同。在研究銷售趨勢的時候，明顯的峰值只會增加噪點，讓人難以判斷真實的趨勢。而在欺詐檢測中，峰值正是分析人員要分析的。所以使用少量樣本的時候，銷售預測效果較好，但要進行欺詐檢測，就得依靠大資料了。

另一方面，更傳統的方法或許效果更佳。Feinberg舉了醫療器械公司想要完善心臟病客戶個人檔案的例子。醫療器械公司可以透過收集大資料找到相似客戶的共同點，或者花錢找幾個心臟病患者過來。

“兩者是一樣的。甚至後者更難，因為它要花費更多的時間，但結果是一個成熟的資料集。”

via:TechTarget

資料探勘-預測模型彙總
2020-11-08
模型
大壓力小資料IO模型
2024-11-13
模型
Alex Woodie：2019大資料預測
2019-01-09
大資料
大資料開發好還是大資料分析好？哪個薪資高？
2019-06-01
大資料
個數是如何用大資料做行為預測的？
2019-01-04
大資料
什麼是大資料測試？大資料測試實現步驟有哪些？
2019-08-29
大資料
大資料時代消費者個人資訊還要“裸奔”多久
2018-04-16
大資料
部落格資料庫要連線Elasticsearch，使用MySQL還是Mong
2021-09-09
資料庫ElasticsearchMySql
資料是黃金還是垃圾？
2018-11-16
智慧資料時代，機器資料分析五大趨勢預測
2019-02-14
IPIDEA與大資料，助力電商需求預測
2023-03-13
Idea大資料
深度揭祕：大資料時代企業賣技術還是賣資料?
2018-03-30
大資料
資料預取小輪子
2018-03-24
時間序列資料的預處理及基於ARIMA模型進行趨勢預測-大資料ML樣本集案例實戰
2018-12-10
模型大資料
資料科學大Battle，你站Python還是R
2018-06-30
資料科學BATPython
什麼是大資料？大資料能做什麼？
2022-03-20
大資料
大資料是什麼？大資料的趨勢？
2019-06-22
大資料
大資料要學什麼?看看這份大資料課程大綱
2019-05-08
大資料
大資料相關資料論文小結
2020-07-16
大資料
資料庫是平替還是改造？
2023-11-13
資料庫
大資料分析模型有哪些
2023-12-07
大資料模型
大資料測試與傳統資料庫測試
2019-08-07
大資料資料庫
2023年資料工程預測
2022-12-06
2024 年大資料領域的關鍵預測
2023-12-26
大資料
什麼是大資料?大資料開發是做什麼的?
2019-12-04
大資料
資料大屏，僅僅是資料展示嗎？
2022-04-20
部落格資料庫要連線Elasticsearch，使用MySQL還是MongoDB更合理
2021-02-28
資料庫ElasticsearchMySqlMongoDB
什麼是大資料？
2022-06-22
大資料
資料分析八大模型：同期群模型
2022-02-21
大模型
看待大資料還需“大眼界”？
2019-05-04
大資料
Mysql資料庫-資料模型
2024-05-26
MySql資料庫模型
大資料預測分析是否對企業有影響
2022-03-02
大資料
多智時代，大資料發展趨勢預測
2019-04-09
大資料
基於大資料的使用者行為預測
2019-01-02
大資料
好程式設計師大資料培訓分享大資料還學嗎？
2020-04-22
程式設計師大資料
模型訓練：資料預處理和預載入
2020-10-27
模型
學習大資料需要什麼基礎？大資料要學哪些內容？
2018-12-19
大資料
什麼是資料湖屋Lakehouse？ -DZone大資料
2020-08-06
大資料
還不知道大資料是幹啥嗎？來看看全球10個智慧城市大資料應用案例！
2019-06-01
大資料

預測模型要大資料還是小資料？

樣本代替總量

資料質量

相關文章