“資料驅動”已經成為當下必須。更明智的進行決策,尤其是在自動化商業智慧的賦能下,會帶來更高的ROI和更好的業績。<p>

從AI工程到超自動化,更多應用資料的有效方式出現,遍及所有商業領域,也被Gartner認為是“2021年十大戰略性科技趨勢”的重點。

想在後疫情時代獲得發展,“以資料為中心”不再是可選項,而是必選項。

但同時,據《哈佛商業評論》2019年的報導,多達77%的高管們將應用大資料和AI看做是最大的挑戰。更糟的是,這個數字在過去幾年中呈指數級增長。

這一趨勢是否會在未來十年持續下去?在向資料驅動體系轉變的過程中,企業努力想要高效利用資料卻又力不從心。大多數企業都不知該如何擺脫這個困境。

海量的交易資料收集下來了,然後呢?<p>
收集和訪問資料並不難。商業每天製造出數以十億計的資料點。到2025年,每天產生的資料將高達463艾位元組,這是把人類歷史上說過的所有話都儲存下來所需資料量的90倍!其中的大量資料是社交媒體、短影片、郵件和自拍照,但更多的還是交易資料。<p>

尤其是零售業,一些最有價值的商業智慧就是從交易資料中獲得的。這曾經是個簡單的過程,我們用Excel甚至手工計算就可以算出市場需求和理想定價。但現在,傳統的資料分析方法已經遠遠不能滿足需求了。資料規模之大讓我們連一知半解都無法做到,更別說從其中獲得有用的洞察。

大資料已經改變了問題的性質。

難點不再是如何收集資料,而是如何高效利用資料。

當我們擁有了海量的交易資料,最讓人感覺手足無措的就是“接下來怎麼辦”。

大資料的四個V慣例<p>
幸好,還有一個行業標準可以指導我們。這“四個V”可以幫助你高效利用資料。必須要理解、標準化和驗證每一個元素,不然就無法成功提取出有用的智慧。<p>
1、Volume-數量<p>
到底擁有多少資料?當然,大資料意味著很大的資料量,但是正在利用的有多少?這個數量決定了分析要承載的容量。<p>
2、Velocity-速度<p>
資料收集、儲存、處理的速度有多快?是接近擁有實時資料了,還是存在延遲?模型每隔多久需要接收新資料?速度決定了分析的時效性和相關性。<p>
3、Variety-型別<p>
擁有哪些種類的資料?它們的結構如何?資料來源的豐富性如何?資料的型別是否足夠多樣化,以提供可用的建議?型別決定了分析是片面封閉的,還是全面整體的。<p>
4、Veracity-準確<p>
資料是準確的嗎?其中是否存在缺漏?又存在多少噪聲?準確性決定了分析的精準度。<p>
價值:第五個V<p>
前面所講的四個V可能是行業慣例,但資料科學家越來越認識到,還有一個V甚至更為重要——價值(Value)。<p>

換句話講,在商業場景中,大資料最重要的賦能,就是將資料轉化為幫助企業提升ROI的決策。資料必須是要能指導行動的,帶來的價值必須要高於分析的成本。相比之下,資料的質量比數量更重要。而價值則衡量了可用資料的最終質量。

企業是否能夠做好這第五個V非常關鍵。就算我們遵循前四個V收集到了好的資料,也並不意味著就真的有用。不產生價值,資料就沒有任何用處。

更好的資料引入+更好的分析=成功<p>
那麼多企業嘗試轉型資料驅動但失敗,問題就出在資料的價值上。一些企業花了超出承受能力的時間去搞定資料的前四個V,說到價值時卻無法提取出有用的洞察。另一些企業重心全在資料分析上,沒有關注四個基本的V,而被資料本身的缺陷限制了價值的輸出。沒有良好的平衡,就得不到關鍵的智慧。<p>

幸好,如果能實現資料引入(data ingestion)和分析的自動化,平衡並沒有想象的那麼難。

理解資料引入(data ingestion)<p>
資料引入與為資料管理和建立模型相關。本質上,資料引入關注的是前四個V,也就是容納數量、降低時延、描述型別、監控精確度的過程。資料被恰當的儲存,誤差和缺口也被定位和修復。<p>

資料引入可能會特別複雜,但可以在一些工具的幫助下將這個過程自動化。如EvoFlow、AirFlow等工具可以編排資料流並執行一系列的檢查,來保證我們所使用的資料井然有序。透過對流程的自動化和二次檢查,這些工具確保資料符合前四個V的要求,讓我們能夠把注意力放在價值上。

自動化分析<p>
對價值的關注並不意味著要犧牲自動化。反之,分析也應該自動化,來避免人工產生的錯誤。我們發現,這就是資料科學與商業科學之間的區別:導致效能欠佳的最顯著原因是使用和輸入錯誤,而自動化能夠減少這些錯誤。<p>

同時,自主化系統可以讓價值最大化,而價值也是每一家企業最需要關注的方面。分析,是將海量交易資料和其他業務資料最終轉化為洞察的一步,這也是大資料能幫助企業完成KPI和成功佔領市場的地方。沒有自動化的分析,就無法最佳化價值。

AI自動化:避免資料驅動的坑<p>
完成數字化轉型這一目標依然困難重重,但是所有生意都可以透過自動化的、AI驅動的大資料,來實現真正的資料驅動。只要我們藉助了那些比任何人類都快速的處理、驗證和分析資料的技術來應用資料,就可以避免被大資料所困。這樣我們也就不會被交易資料所淹沒,而是能夠從中挖掘出價值,帶來更好結果。<p>

作者:Fabrizio Fantini<p>

來源:towards data science

原文連結:https://towardsdatascience.com/the-5-vs-of-big-data-hide-a-trap-30eb8d8de8f6

翻譯:TalkingData

圖片來源:pixabay