2024年大資料之巔:企業如何跨越9大挑戰引領資料技術革命?

danny_2018發表於2024-01-16

資料是推動人工智慧驅動型企業發展的強大動力,而用於管理和交付資料的工具和技術同樣具有重要作用。

如今,隨著人們對人工智慧和機器學習的嚮往,迫切需要確保資料的可用性、及時性、準確性、相關性,這意味著確保資料通道暢通無阻。

面對如此多的利害關係,未來企業在資料方面將面臨哪些挑戰?如何應對這些挑戰呢?

挑戰1:資料複雜性 DATA COMPLEXITY

資料複雜性正在增大,是由於資料量、資料種類和資料生產的速度加大所致。生成和儲存的資料量呈指數級增長,主要是由於連線裝置和感測器數量的增加,以及線上應用和服務的激增。

趨勢:資料進入人工智慧應用和系統,來源比以往任何時候都廣泛,包括結構化和非結構化資料,以越來越快的速度建立和處理,加劇了資料的複雜性。SAS高階產品營銷經理Kunal Shah說,組織越來越難以管理、儲存、分析和保護其資料;資料管理解決方案可能既複雜又昂貴;發展資料文化需要時間;採用新技術可能具有挑戰性。

解決方案:公司需要投資於大資料管理解決方案,有助於打破資料孤島,確保使用者可以訪問、整合、清理和轉換資料,無論資料位於何處。

此外,重要的是透過教育員工資料的重要性並培訓如何負責任地使用資料,發展一種優先考慮資料質量、安全性和治理的資料文化。採用人工智慧和機器學習等新技術將有助於更有效地管理和分析複雜的資料集。

挑戰2:非結構化資料 UNSTRUCTURED DATA

非結構化資料的爆炸式增長已成為一股不可忽視的力量。CTERA公司CTO Aron Brand表示,非結構化資料的價值正在迅速增長,尤其是在能夠理解各種非結構化文件的生成式AI領域。這種指數級增長不僅與數量有關,還與將這些資料轉化為可操作的情報有關。

在以資料為中心的世界中,成功的企業不一定是充斥著資料的企業,而是能夠巧妙地組織、管理和利用資料的企業。

趨勢:隨著技術的不斷髮展,企業越來越依賴資料驅動的決策,非結構化資料的數量也在同步增長。

隨著人工智慧滲透到業務的方方面面,從日常運營到關鍵決策,其對資料的需求也在增長,尤其是對於文字、影像和影片等非結構化資料。最近,生成式人工智慧解決方案才能夠有效地處理這些資料,凸顯了採用以資料為中心的思維方式的緊迫性。

然而,人工智慧的巨大潛力也揭示了傳統儲存技術的缺點,要求平臺能夠善於管理在不同地點生成和處理的大量非結構化資料。

挑戰3:邊緣基礎設施 INFRASTRUCTURE FOR THE EDGE

注意邊緣!那裡正在產生大量資料和處理需求。當前邊緣計算呈指數級增長,對處理、儲存和分析邊緣捕獲的資料的需求增加。企業應該考慮從“雲優先”戰略過渡到“邊緣優先”戰略,在建立資料的地方處理和分析資料的需求將改善客戶體驗,以及效率和企業利潤。

而為更集中的雲建立的技術並不總是適用於解決邊緣資料問題。

趨勢:所有擁有小型/邊緣位置的企業面臨的挑戰通常都是一樣的,即如何處理和儲存在這裡建立的所有資料?如何保護它?如何在所有這些站點使用這些資料?

對於許多應用環境來說,將所有資料從邊緣移動到雲的傳統方法不再實用,因為雲端計算可能非常昂貴、不可靠,並且由於從雲向邊緣裝置傳送、接收資料的延遲,可能無法滿足應用程式的效能需求。

雖然如今低成本、小尺寸的超融合系統能夠處理和儲存資料,但保護資料並使其易於用於業務改進的技術尚未出現。因此,邊緣計算面臨的資料處理面臨巨大的創新和改進機會。

挑戰4:為AI構建可行的基礎設施 BUILDING A VIABLE INFRASTRUCTURE FOR AI

管理和交付能夠滿足AI需求的資料管道和基礎設施需要比前幾代更復雜的資料基礎。然而,Appian工程高階副總裁Adam Glaser表示,所需的大部分資料“分散在各種資料倉儲和資料湖中,缺乏實施AI和真正釋放其潛力所需的集中化。這是因為人工智慧模型要求很高,需要大量的管理資源、頻繁的維護和定製的工具。

在這些已經要求苛刻的、互不關聯的基礎之上分層人工智慧功能將導致更多問題,因為大多陣列織缺乏專業知識來訓練或微調其資料的訓練模型。這種痛苦的根源最終來自資料孤島的不可訪問、脫節等性質。

趨勢:無法向人工智慧模型提供資料,如果不正確處理或解決,只會隨著時間的推移而繼續惡化。如今,企業產生的資料量呈指數級增長,而那些不利用這些資料並使其為業務服務的企業將被拋棄。生成式人工智慧的出現為企業轉型工作注入了新的活力,但鞏固資料基礎的風險甚至更高。

解決方案:Glaser建議,Data Fabric為構建AI模型的可行基礎提供了最佳方法。藉助Data Fabric,企業可以在虛擬層中處理資料,這樣就不必在資料庫發生變化時遷移資料或重構程式碼,不僅提供了對資料的輕鬆訪問,而且還提供了資料所在位置和訪問方式的統一檢視,從而使AI能夠更好地預測,而無需更改儲存位置。

與任何企業範圍的IT挑戰一樣,技術只是解決方案的一部分。如何在組織內實施技術並隨後進行管理同樣重要,不僅需要領導團隊的支援,還需要整個企業的各種利益相關者的支援,不可能一蹴而就。

挑戰5:擴充套件AI計劃SCALING AI INITIATIVES

除了為AI建立堅實的資料基礎外,使AI應用和系統能夠從試點專案擴充套件到企業需求也至關重要。挑戰源於組織忽視的各種來源,如資料完整性、資料隱私、安全性、基礎設施以及採用人工智慧的文化方面。

擴充套件人工智慧不僅僅是一項技術工作,還需要致力於負責任地使用人工智慧,涉及解決偏見、確保透明度和在人工智慧系統中建立問責制等方面。

趨勢:積極培養資料驅動文化的組織能夠更好地應對擴充套件人工智慧的挑戰。許多組織現在優先考慮制定包含人員、流程、技術和資料元件的戰略計劃,以培養定義明確、資料驅動的文化。

解決方案:必須制定戰略計劃:在第三方專家的主持下舉辦研討會,以評估組織當前的資料成熟度水平。請記住,邁向資料驅動型文化的旅程需要時間和精力,因此毅力和持續承諾是成功的關鍵。

挑戰6:資料治理DATA GOVERNANCE

隨著資料成為公司發展的核心,資料治理長期以來一直是實施或構建人工智慧驅動的應用和系統的首要挑戰和優先事項。

如果沒有資料治理,你就無法獲得人工智慧的好處,仍然是組織掌握的最具挑戰性和最複雜的策略之一。資料治理的挑戰在於一致性。許多不同部門的許多不同人員可能都可以訪問企業的關鍵資料,並且所有人都有與這些發現進行互動的首選方法。“廚房裡有很多廚師,但不是每個人都在同一所烹飪學校學習。”

趨勢:更有效的資料治理流程的案例正在增加,每天都有大量新的資料洞察用例在不同職能部門開發。“如果內部壓力還不夠,越來越多正在制定的法規,保護客戶資料,又增加了一層複雜性。

解決方案:資料治理是一項協作工作,需要資料團隊和資料消費者(如營銷和產品團隊)的積極參與。這種協作方法不僅確保了一致的資料質量和可訪問性,而且還增強了非資料團隊的自助訪問,從而在組織內培養了一種更加資料驅動的文化。

其他方法包括整合機器學習,以幫助檢測可疑活動並實時監控資料安全性,以及自動化訪問控制和更改檢測,將不可避免地為資料團隊節省時間和資源。

挑戰7:資料質量 DATA QUALITY

如果沒有高質量的資料,人工智慧都可能會停滯不前。雖然聽起來很簡單,但確保資料質量一直是一個不容易解決的挑戰。每次收集、共享或分析資料時,其質量都有可能受到影響。隨著2024年資料量和來源的持續增加,優先考慮資料質量將至關重要。

趨勢:生成式人工智慧的出現和廣泛採用使資料質量變得更加重要。“隨著越來越多地使用黑盒模型來做出決策,圍繞資料進行更嚴格的審查和不確定性的大門已經開啟。

例如,OpenAI使用者“永遠無法深入瞭解模型是如何訓練的”,這極大地影響了組織信任用於為模型提供資料質量的能力,以及作為輸出接收的資料的質量。

解決方案:市場上的工具包括用於分析、清理和對資料應用健全性檢查的功能。無論他們選擇哪種工具,資料質量都必須融入編排平臺的流程中。由於資料在資料編排中不斷移動,這些平臺充當資料治理、可觀察性和質量的介面,並最終確保只有好的資料才能提供給儀表板、人工智慧應用和其他資料產品。為了緩解資料質量挑戰,企業應該在未來一年及以後優先考慮其資料編排戰略。

挑戰8:遺留資料庫 LEGACY DATABASES

熟悉的遺留資料庫系統,現在正成為雲架構阻礙因素,也將是2024年企業面臨的一大挑戰。Yugabyte戰略和營銷副總裁 Suda Srinivasan表示:“配置、擴充套件和運營緩慢的傳統的關聯式資料庫與現代雲原生基礎設施和應用之間存在根本性的不匹配。”雲原生速度不匹配是企業在未來一年必須面對的最具挑戰性的資料相關問題之一。

趨勢:在過去十年,技術堆疊已經逐層實現雲原生。但是大多數關鍵業務應用依賴傳統的事務資料庫。組織面臨著巨大的壓力,需要快速、經濟高效地交付功能強大、準確的應用,從而增加價值。公司需要吸引和維持那些越來越難以取悅的客戶,在這個環境中,高期望、24/7 可訪問性、絕對資料準確性和快速創新是不可協商的。

幾年前,NoSQL作為一種替代資料庫出現,可提供規模和彈性。但是,它減慢了開發人員的速度,並迫使他們進行資料一致性和SQL查詢權衡。

解決方案:長期以來,公司的關鍵應用一直受到傳統SQL和NoSQL資料庫的限制。雖然這些資料庫在當時提供了實實在在的好處,但也迫使組織在資料一致性、彈性和可擴充套件性等領域做出妥協。

為了充分利用其投資,組織現在需要戰略性地調整其雲基礎架構和應用現代化工作,重點關注資料庫現代化。現代分散式資料庫提供了一種資料解決方案,結合了SQL和NoSQL的優勢(資料一致性、內建彈性和高度可擴充套件性)以及面向未來的資料層創新。

挑戰9:資料安全 DATA SECURITY

資料安全始終是一個緊迫的問題,未來一年幾乎不會帶來任何緩解。不幸的是,勒索軟體不會很快消失,所造成的影響只會變得更加強烈。

ChatGPT和類似工具的蓬勃發展為線上隱私、詐騙和虛假資訊帶來了新的挑戰,但它們無疑也為安全軟體行業開闢了新的可能性。

雖然資料安全並不是一個新風險,但勒索軟體的社會經濟影響值得每個行業和政府機構越來越關注。網路攻擊者每天都在尋找弱點,企業必須採取行動來保護資料,並灌輸一套最佳實踐,以儘可能消除人為錯誤。

趨勢:勒索軟體的規模和頻率將持續增大。根據Cybersecurity Ventures的資料,到2031年,勒索軟體預計將給受害者造成超過2650億美元的損失,每2秒就會對消費者或企業進行一次新的攻擊。

解決方案:隨著惡意軟體有效載荷和勒索策略變得越來越完善,組織需要一個多管齊下的綜合戰略。通常依賴於在磁碟或公共雲中保留備份資料的單個副本的組織應將 3-2-1-1-0 規則視為資料保護最佳實踐——該規則建議在兩種不同型別的介質上,至少保留三個資料副本,一個是異地的,一個是離線的。確保資料的多個副本存在於不同的位置,包括至少一個未連線的副本,是準備和補救勒索軟體攻擊的一種非常有效的方法。

全面的計劃應考慮先發制人的措施來避免、識別和阻止攻擊,還應該包括攻擊後的補救措施,以控制和評估損害,然後再確定最快、最安全的恢復途徑。

來自 “ TMT產品技術 ”, 原文作者:Hadoop大資料應用;原文連結:https://mp.weixin.qq.com/s/5EjEIeDKyWXg5a1z49yn2A,如有侵權,請聯絡管理員刪除。

相關文章