資料驅動背後的“陷阱”

DinK發表於2020-11-25

原文網址 : http://www.199it.com/archives/1159757.html

“資料驅動”已經成為當下必須。更明智的進行決策，尤其是在自動化商業智慧的賦能下，會帶來更高的ROI和更好的業績。

從AI工程到超自動化，更多應用資料的有效方式出現，遍及所有商業領域，也被Gartner認為是“2021年十大戰略性科技趨勢”的重點。

想在後疫情時代獲得發展，“以資料為中心”不再是可選項，而是必選項。

但同時，據《哈佛商業評論》2019年的報導，多達77%的高管們將應用大資料和AI看做是最大的挑戰。更糟的是，這個數字在過去幾年中呈指數級增長。

這一趨勢是否會在未來十年持續下去？在向資料驅動體系轉變的過程中，企業努力想要高效利用資料卻又力不從心。大多數企業都不知該如何擺脫這個困境。

海量的交易資料收集下來了，然後呢？

收集和訪問資料並不難。商業每天製造出數以十億計的資料點。到2025年，每天產生的資料將高達463艾位元組，這是把人類歷史上說過的所有話都儲存下來所需資料量的90倍！其中的大量資料是社交媒體、短視訊、郵件和自拍照，但更多的還是交易資料。

尤其是零售業，一些最有價值的商業智慧就是從交易資料中獲得的。這曾經是個簡單的過程，我們用Excel甚至手工計算就可以算出市場需求和理想定價。但現在，傳統的資料分析方法已經遠遠不能滿足需求了。資料規模之大讓我們連一知半解都無法做到，更別說從其中獲得有用的洞察。

大資料已經改變了問題的性質。

難點不再是如何收集資料，而是如何高效利用資料。

當我們擁有了海量的交易資料，最讓人感覺手足無措的就是“接下來怎麼辦”。

大資料的四個V慣例

幸好，還有一個行業標準可以指導我們。這“四個V”可以幫助你高效利用資料。必須要理解、標準化和驗證每一個元素，不然就無法成功提取出有用的智慧。

1、Volume-數量

到底擁有多少資料？當然，大資料意味著很大的資料量，但是正在利用的有多少？這個數量決定了分析要承載的容量。

2、Velocity-速度

資料收集、儲存、處理的速度有多快？是接近擁有實時資料了，還是存在延遲？模型每隔多久需要接收新資料？速度決定了分析的時效性和相關性。

3、Variety-型別

擁有哪些種類的資料？它們的結構如何？資料來源的豐富性如何？資料的型別是否足夠多樣化，以提供可用的建議？型別決定了分析是片面封閉的，還是全面整體的。

4、Veracity-準確

資料是準確的嗎？其中是否存在缺漏？又存在多少噪聲？準確性決定了分析的精準度。

價值：第五個V

前面所講的四個V可能是行業慣例，但資料科學家越來越認識到，還有一個V甚至更為重要——價值（Value）。

換句話講，在商業場景中，大資料最重要的賦能，就是將資料轉化為幫助企業提升ROI的決策。資料必須是要能指導行動的，帶來的價值必須要高於分析的成本。相比之下，資料的質量比數量更重要。而價值則衡量了可用資料的最終質量。

企業是否能夠做好這第五個V非常關鍵。就算我們遵循前四個V收集到了好的資料，也並不意味著就真的有用。不產生價值，資料就沒有任何用處。

更好的資料引入+更好的分析=成功

那麼多企業嘗試轉型資料驅動但失敗，問題就出在資料的價值上。一些企業花了超出承受能力的時間去搞定資料的前四個V，說到價值時卻無法提取出有用的洞察。另一些企業重心全在資料分析上，沒有關注四個基本的V，而被資料本身的缺陷限制了價值的輸出。沒有良好的平衡，就得不到關鍵的智慧。

幸好，如果能實現資料引入（data ingestion）和分析的自動化，平衡並沒有想象的那麼難。

理解資料引入（data ingestion）

資料引入與為資料管理和建立模型相關。本質上，資料引入關注的是前四個V，也就是容納數量、降低時延、描述型別、監控精確度的過程。資料被恰當的儲存，誤差和缺口也被定位和修復。

資料引入可能會特別複雜，但可以在一些工具的幫助下將這個過程自動化。如EvoFlow、AirFlow等工具可以編排資料流並執行一系列的檢查，來保證我們所使用的資料井然有序。通過對流程的自動化和二次檢查，這些工具確保資料符合前四個V的要求，讓我們能夠把注意力放在價值上。

自動化分析

對價值的關注並不意味著要犧牲自動化。反之，分析也應該自動化，來避免人工產生的錯誤。我們發現，這就是資料科學與商業科學之間的區別：導致效能欠佳的最顯著原因是使用和輸入錯誤，而自動化能夠減少這些錯誤。

同時，自主化系統可以讓價值最大化，而價值也是每一家企業最需要關注的方面。分析，是將海量交易資料和其他業務資料最終轉化為洞察的一步，這也是大資料能幫助企業完成KPI和成功佔領市場的地方。沒有自動化的分析，就無法優化價值。

AI自動化：避免資料驅動的坑

完成數字化轉型這一目標依然困難重重，但是所有生意都可以通過自動化的、AI驅動的大資料，來實現真正的資料驅動。只要我們藉助了那些比任何人類都快速的處理、驗證和分析資料的技術來應用資料，就可以避免被大資料所困。這樣我們也就不會被交易資料所淹沒，而是能夠從中挖掘出價值，帶來更好結果。

作者：Fabrizio Fantini

來源：towards data science

原文連結：https://towardsdatascience.com/the-5-vs-of-big-data-hide-a-trap-30eb8d8de8f6

翻譯：TalkingData

圖片來源：pixabay

Netty背後的事件驅動機制
2018-11-21
Netty事件
所有權背後的資料互動
2022-02-28
生鮮傳奇簽約觀遠資料，30億估值背後的資料驅動運營升級之道
2019-02-19
雲派休閒遊戲增長的背後，資料驅動如何解決運營難題
2020-10-26
遊戲
資料庫索引背後的資料結構
2019-02-26
資料庫索引資料結構
《不休的烏拉拉》背後的資料體系
2021-01-27
揭秘“資料咖啡”瑞幸背後的大資料危機
2020-04-15
大資料
揭秘位元組跳動業務背後的分散式資料治理思路
2023-03-14
分散式
Selenium–資料驅動(python)
2018-05-18
Python
鴻蒙資料驅動
2024-09-01
鴻蒙
詳解資料驅動
2022-05-04
Mybatis資料庫驅動
2023-03-15
MyBatis資料庫
資料驅動產業資產
2022-06-08
產業
自然語言處理背後的資料科學
2019-04-29
自然語言處理資料科學
荷蘭銀行構建可擴充套件的後設資料驅動的資料攝取框架
2022-11-01
套件框架
（六）WPF資料驅動模式
2024-10-02
模式
探索AntDB：資料驅動時代的引擎
2024-03-06
大咖論道資料透明度（Transparency）：後疫情時代如何走向資料驅動？
2020-07-15
企業上雲的背後看新數科技如何推動資料庫創新?
2019-05-13
資料庫
如何理解自動化測試資料驅動與關鍵字驅動的區別?
2019-04-16
誰來背鍋？自動駕駛車禍背後的故事
2024-04-11
自動駕駛
數矩覺醒，看聯想凌拓雙輪驅動背後的底氣與實力
2023-01-13
pytest的資料驅動和引數傳遞
2024-06-10
A站資料洩露的背後你必須知道的那些點！
2018-06-15
Oracle跨主機複製資料庫背後的意義
2021-12-13
Oracle資料庫
Amazon Redshift簡化資料管道背後的技術邏輯
2022-12-23
蘋果自動駕駛背後的故事
2019-02-21
蘋果自動駕駛
影響資料驅動業務目標的大資料挑戰
2019-06-06
大資料
讓資料更智慧的驅動業務——優炫自治資料庫
2021-11-09
資料庫
Vue原始碼分析之資料驅動
2020-08-21
Vue原始碼
10種資料驅動策略提高CRO
2021-12-25
DDT資料驅動效能測試(一)
2022-04-24
win10驅動資料夾在哪裡_win10顯示卡驅動在哪個資料夾
2020-07-08
Win10
實時開發驅動下的資料智慧化
2024-01-29
Blockgraph：建設資料驅動電視的未來
2019-08-12
BloC
資料驅動的生產運營管理決策
2023-02-01
"淘寶大資料揭秘：購物狂歡節背後的秘密！"
2023-10-07
大資料
你的企業安全軟體是否在背後偷傳資料？
2019-09-04

資料驅動背後的“陷阱”

相關文章