為什麼85%的大資料專案都以失敗告終?

陶然陶然發表於2023-05-11

  導讀:企業在推行大資料專案時往往把專案規模和範圍做得很大,但是事實卻是,大多數的大資料專案通常都以失敗告終。

  2016年,Gartner估算約60%的大資料專案都會失敗。一年後,Gartner分析師Nick Heudecker表示,這個資料“過於保守”,大資料專案失敗率應接近85%。直至現在他也是這樣認為的。

  並不只有Gartner這樣認為,前微軟高管Bob Muglia告訴分析網站Datanami,“我找不到完全滿意的Hadoop客戶”。實際上,成功應用Hadoop的客戶數量可能少於20個,甚至可能少於10個。考慮到其存在時間以及行業投入,這個結果很令人震驚。

  熟悉大資料的人都知道,這個問題是真實且嚴重的,而不完全是技術問題。事實上,相對於本質原因,技術是失敗的次要原因。以下是大資料專案失敗的四個主要原因,以及可以成功的四種方式。

   01 四個主要的原因

  大資料問題1:整合不佳

  Heudecker表示,大資料失敗背後存在著一個重要的技術問題,那就是整合多個來源的孤立資料,以實現企業所需的資料處理能力。建立與孤立傳統系統的連線並不容易。他說,整合成本是軟體成本的五到十倍。其中最大的問題是簡單整合:如何將多個資料來源連結在一起?很多人選擇資料湖路線,認為這個方式很簡單,但事實並非如此。

  孤立資料是問題的一部分。客戶告訴他,當他們將資料從系統提取到像資料湖這樣的公共環境中後,卻無法弄清楚這些值的含義。“當你將資料輸入資料湖時,怎麼知道數字3意味著什麼?”Heudecker問道。

  普華永道(PwC)高階研究員Alan Morrison表示:“由於是在孤島中工作,或者建立的資料湖只是資料沼澤,所以他們能完成的工作只是冰山一角。”“他們不理解資料中的關係,這些關係需要挖掘或推斷,以便機器能夠充分解釋這些資料。另外,他們需要建立一個知識圖層,以便機器能夠解釋下面對映的所有例項資料。否則,資料湖只能是一個資料沼澤,”

  大資料問題2:不明確的目標

  大多數人以為企業在進行大資料專案時會有明確的目標,但實際並不是這樣的。很多公司通常是先啟動專案,然後才去想目標。

  資料整合軟體公司Talend的產品營銷經理Ray Christopher表示,“你必須認真審視這個問題。人們認為他們可以將結構化和非結構化資料連線起來,從而獲得所需的資訊。然而這必須提前確定目標,你想要什麼樣的資訊?”

  企業應用諮詢公司的首席分析師Joshua Greenbaum表示,困擾大資料和資料倉儲專案的部分原因是指導標準通常是大量資料的積累,而不是解決業務問題。

  Greenbaum說,“如果將大量資料彙總在一起,就會得到資料轉儲,可以稱之為衛生垃圾填埋場。這不是尋找解決方案的好方法。我一般建議客戶先決定需要優先解決哪些業務問題,然後檢視可用資料的質量,並在發現業務問題後解決資料問題。”

  為什麼大多大資料專案都失敗了?對於初學者來說,大資料專案領導者都缺乏遠見。Morrison這樣認為。大多數企業只考慮數值資料或黑盒子NLP和識別引擎,並進行簡單的文字挖掘和其他型別的模式識別。

  大資料問題3:技能差距

  很多時候,公司認為他們為資料倉儲建立的內部技能將轉化為大資料,而事實並非如此。對於初學者來說,資料倉儲和大資料以完全相反的方式處理資料:資料倉儲在寫入時執行模式,這意味著資料在進入資料倉儲之前就會被處理和組織。

  在大資料中,積累資料並應用讀取模式,資料在讀取時進行處理。因此,如果資料處理從一種方法轉向另一種方法,技能和工具應該也是如此。

  “技能永遠是一個挑戰。如果我們30年後談論大資料,仍然會面臨挑戰。“很多人都依賴Hadoop。但Spark更好一些,因為棧更小也更容易訓練。”

  大資料問題4:技術代溝

  大資料專案經常從舊的資料豎井中提取資料,並試圖將它們與新的資料來源(如感測器、網路流量或社交媒體)合併。這並不完全是企業的錯,企業在大資料分析出現之前就收集了這些資料,但無論如何,這也是一個問題。

  Greenbaum認為,企業缺少的最大技能是如何融合這兩個資料來源,讓他們共同解決複雜問題。資料孤島可能成為大資料專案的障礙,因為它沒有任何標準。因此,當企業開始規劃時,發現這些系統尚未以任何方式實施,所以這些資料將被重複使用。

  Talend的Christopher認為,對於不同的架構需要以不同的方式進行處理。技術技能和架構差異是無法將當前工具用於本地資料倉儲並將其與大資料專案整合的主要原因。因為這些技術處理新資料的成本太高。所以需要Hadoop和Spark等新的語言。

   02 四種成功的方式

  解決方案1:提前規劃

  雖然是陳詞濫調,但適用於大資料專案。成功的公司必然是有結果的公司,選擇一些小而可實現的新東西進行規劃和實現。

  Morrison說:“他們需要首先考慮資料,並以機器可讀的方式為企業建模,以便資料服務於該企業。”

  解決方案2:共同努力

  股東往往被排除在大資料專案之外 。Heudecker說,如果所有股東合作,他們可以克服許多障礙。加上技術人員共同努力,並與業務部門合作以提供可行的結果,這可能有所幫助。

  Heudecker指出,在大資料方面取得成功的公司大量投資於必需的技能。他認為這是資料驅動型公司普遍認可的,如金融服務公司、優步、Lyft和Netflix。公司的財富基於擁有可靠、可操作的資料。

  Christopher認為,應該讓大資料專案成為一項團隊運動,所有人都幫助策劃和收集資料並處理它,提高資料的完整性。

  解決方案3:縮小焦點

  人們似乎有一種心態,即大資料專案需要非常大的動作。但就像你第一次學習任何東西一樣,成功的最好方法是從小到小,然後逐漸擴大。

  “他們應該仔細定義他們在做什麼,”Heudecker說,“應該選擇一個問題域並研究解決它,例如欺詐檢測、細分客戶,或者弄清楚千禧一代市場中推出的新產品。”

  Christopher說:“說到底,你必須問問自己想要什麼,或者想要數字化的業務流程。不只是把技術扔到商業問題上,你必須預先定義它。資料湖是必要的,但如果資料湖不會被任何商業人士使用,你就不會想要收集資料。”

  在很多情況下,這也意味著不要讓自己的公司過度膨脹。Morrison表示,在他研究過的每一家公司中,只有幾百個關鍵概念和關係是整個企業賴以運作的。一旦你理解了這一點,你就會意識到,所有這些數以百萬計的差別只是那幾百件重要事情的微小變化。事實上,你會發現許多細微的變化根本不是變化。它們其實本質上是一樣的東西,雖然有不同的名字、不同的結構、不同的標籤。

  解決方案4:拋棄傳統

  雖然您可能希望使用收集並儲存在資料倉儲中的那些TB級資料,但事實上您可能更好地服務於為大資料設計的儲存系統中新收集的資料,並且設計為未經過處理的資料。

  要避免因為企業擁有一項基礎設施的許可證而只對現有的基礎設施感興趣。通常,新的複雜問題可能需要新的複雜解決方案。使用企業以往的就工具並不是正確做法,甚至有可能導致大資料專案失敗。

  Morrison認為,企業應該停止故步自封。他還表示,企業不能再一味依賴供應商為他們解決複雜的系統問題。“幾十年來,許多人似乎都認為任何大資料問題都是系統性問題。但當面對複雜的系統變化時,企業必須建立自己的解決方案。

來自 “ 談資料 ”, 原文作者:談資料;原文連結:http://server.it168.com/a2023/0511/6803/000006803263.shtml,如有侵權,請聯絡管理員刪除。

相關文章