2024年及以後大資料的頂級趨勢

danny_2018發表於2024-02-29

大資料正在向各行各業的各種型別和規模的公司證明其價值,充分利用它的公司正在實現實實在在的業務好處,從提高運營效率、提高對快速變化的業務環境的可見性,到最佳化客戶的產品和服務。

其結果是,隨著公司發現這些典型的大型資料儲存的用途,大資料技術、實踐和方法也在不斷髮展。用於收集、處理、管理和分析整個公司中的各種資料的新型大資料架構和技術不斷湧現。

處理大資料不僅僅是處理大量儲存的資訊。數量大隻是公司需要解決的眾多大資料V中的一個。通常還有大量的資料——從分佈在整個公司的資料庫中的結構化資訊,到檔案、影像、影片、感測器、系統日誌、文字和檔案中的大量非結構化和半結構化資料,包括等待數字化的紙質資料,此外,這些資訊通常是以快速(速度)建立和更改的,並且具有不同的資料質量(準確性)水平,這給資料管理、處理和分析帶來了進一步的挑戰。

大資料的四大趨勢正在幫助公司應對這些挑戰,並獲得他們所尋求的好處。以下是行業專家確定的四大大資料趨勢,以及它們對投資於大資料部署的公司意味著什麼。

1. GenAI、高階分析和機器學習繼續發展

隨著海量資料的產生,傳統的分析方法受到了挑戰,因為它們不容易實現大規模資料分析的自動化。分散式處理技術,特別是由Hadoop和Spark等開源平臺推動的技術,使公司能夠快速處理PB級的資訊。然後,企業使用大資料分析技術來最佳化其商業智慧和分析計劃,將依賴於資料倉儲技術的緩慢報告工具轉移到更智慧、更具響應性的應用程式,從而更好地瞭解客戶行為、業務流程和整體運營。

大資料分析的發展繼續聚焦於機器學習和AI系統。AI越來越多地被各種規模的公司用來最佳化和改進他們的業務流程。在企業戰略集團的支出意向調查中,在193名熟悉其公司中的AI和機器學習計劃的受訪者中,63%的人表示,他們預計2023年該公司將在這些工具上投入更多資金。

機器學習使公司能夠更輕鬆地識別資料模式、檢測大型資料集中的異常,並支援預測性分析和其他高階資料分析功能。這方面的一些例子包括:

影像、影片和文字資料的識別系統。

資料的自動分類。

針對聊天機器人以及語音和文字分析的自然語言處理(NLP)功能。

自主業務流程自動化。

網站和服務中的個性化和推薦功能。

能夠在海量資料中為業務問題找到最佳解決方案的分析系統。

事實上,在AI和機器學習的幫助下,公司正在利用他們的大資料環境,透過智慧聊天機器人和更個性化的互動提供更深入的客戶支援,而不需要大幅增加客戶支援人員,這些支援AI的系統能夠收集和分析有關客戶和使用者的海量資訊,特別是當與資料湖戰略配合使用時,該戰略可以聚合許多來源的廣泛資訊。

企業也看到了資料視覺化領域的創新。當資料以圖表、圖形和曲線圖等視覺化形式表示時,人們更好地理解資料的含義。新興的資料視覺化形式正在將支援AI的分析的力量掌握在甚至是普通商業使用者手中,這有助於公司發現可以改進決策的關鍵見解。高階形式的視覺化和分析工具甚至允許使用者用自然語言提問,系統會自動確定正確的查詢並以與上下文相關的方式顯示結果。

GenAI和大型語言模型(LLM)甚至更多地改進了公司的資料操作,並在整個資料管道中受益。GenAI可以幫助自動化資料可觀察性監控功能,透過針對已識別的問題進行主動警報和修復來提高質量和效率,甚至可以編寫程式碼行,它可以掃描大量資料以查詢錯誤或不一致之處,或識別模式,併為資料團隊生成最重要細節的報告或視覺化。低成本管理系統為公司提供新的資料民主化能力。隨著GenAI將自己編織到資料管理過程中,資料編目、整合、隱私、治理和共享都在上升。

GenAI和LLMS的能力取決於用於訓練模型的資料的質量。隨著GenAI在所有行業的興趣和使用不斷上升,資料質量比以往任何時候都更加重要。資料團隊必須仔細監控所有AI生成的資料操作的結果。錯誤或誤導的資料可能會導致錯誤的決策和代價高昂的結果。

2. 更多的資料,更多的資料多樣性推動了處理的進步和邊緣計算的興起

資料生成的步伐繼續加快,這些資料中的很大一部分並不是從資料庫中發生的商業交易中產生的,而是來自其他來源,包括雲系統、網路應用、影片流以及智慧手機和語音助理等智慧裝置,這些資料在很大程度上是非結構化的,在過去,公司大多未處理和使用這些資料,將其變成了所謂的暗資料。

這讓我們看到了大資料的最大趨勢:非資料庫來源仍將是主要的資料來源,進而迫使公司重新檢查其資料處理需求。特別是,語音助理和物聯網裝置正在推動大資料管理需求的快速增長,涉及零售、醫療、金融、保險、製造業和能源等各種行業,以及廣泛的公共部門市場。資料多樣性的爆炸式增長迫使公司超越傳統的資料倉儲,將其作為處理所有這些資訊的手段。

此外,處理正在生成的資料的需求正在轉移到裝置本身,因為行業在處理能力方面的突破導致了越來越先進的裝置的開發,這些裝置能夠自行收集和儲存資料,而不會對網路、儲存和計算基礎設施造成負擔。例如,手機銀行應用程式可以處理許多遠端支票存款和處理任務,而不必將影像來回傳送到中央銀行系統進行處理。

使用裝置進行分散式處理體現在邊緣計算的概念中,該概念在將資料傳送到伺服器之前將處理負載轉移到裝置本身。邊緣計算透過減少資料流經網路的需求來最佳化效能和儲存,這降低了計算和處理成本,特別是雲端儲存、頻寬和處理費用。邊緣計算還有助於加快資料分析,為使用者提供更快的響應。

3. 大資料儲存需求推動雲和混合雲平臺的創新,資料湖的增長

為了應對不可阻擋的資料生成增長,公司正在花費更多的資源將這些資料儲存在一系列針對大資料的所有V級進行最佳化的基於雲的和混合雲系統中。在過去的幾十年裡,公司處理自己的儲存基礎設施,導致企業必須管理、保護和運營海量資料中心。轉向雲端計算改變了這一動態,透過將責任轉移到雲基礎設施提供商,如AWS、谷歌、微軟、甲骨文和IBM,公司可以處理幾乎無限數量的新資料,並按需支付儲存和計算能力費用,而不必維護自己的大型且複雜的資料中心。

由於監管或技術限制,一些行業在使用雲基礎設施方面面臨挑戰。例如,受到嚴格監管的行業——如醫療保健、金融服務和政府——有阻止使用公有云基礎設施的限制,因此,在過去十年中,雲提供商開發了各種方法來提供更有利於監管的基礎設施,以及將第三方雲系統的各個方面與本地計算和儲存相結合以滿足關鍵基礎設施需求的混合方法。隨著公司尋求雲端計算的經濟和技術優勢,公有云和混合雲基礎設施的發展無疑將取得進展。

除了在雲端儲存和處理方面的創新,企業正在轉向新的資料架構方法,這些方法使他們能夠應對大資料的多樣性、準確性和資料量挑戰。企業正在發展資料湖的概念,而不是試圖將資料儲存集中在需要複雜且耗時的提取、轉換和載入流程的資料倉儲中。資料湖以其原生格式儲存結構化、半結構化和非結構化資料集,這種方法將資料轉換和準備的責任轉移到具有不同資料需求的終端使用者身上。資料湖還可以為資料分析和處理提供共享服務。

4. 資料運營和資料管理脫穎而出

未來幾年,大資料處理、儲存和管理的許多方面將繼續發展,這些創新在很大程度上是由技術需求驅動的,但部分也是因為我們思考和處理資料的方式發生了變化。

創新的一個領域是DataOps的出現,這是一種專注於靈活、迭代的方法和實踐,用於在資料流經公司時處理資料的整個生命週期。DataOps流程和框架不是以零散的方式考慮資料,由不同的人來處理資料生成、儲存、傳輸、處理和管理,而是解決從生成到歸檔的整個資料生命週期的公司需求。

同樣,公司越來越多地處理資料治理、隱私和安全問題,這種情況因大資料環境而加劇。過去,企業往往對資料隱私和治理方面的擔憂有些鬆懈,但新的法規使它們對系統中個人資訊發生的事情承擔更多責任。GenAI增加了公司需要考慮的另一層隱私和倫理問題。

由於普遍存在的安全漏洞、客戶對企業資料共享做法的信任度下降,以及在資料生命週期中管理資料方面的挑戰,公司正變得更加關注資料管理,並更加努力地保護和管理資料,尤其是在資料跨越國際邊界的時候。新的工具正在湧現,以確保資料停留在需要的位置,在靜止和移動時得到保護,並在其生命週期中得到適當的跟蹤。

總的來說,這些大資料趨勢將繼續塑造2024年的大資料形態。

來自 “ 大資料D1net ”, 原文作者:Ronald Schmelzer;原文連結:https://mp.weixin.qq.com/s/QMyNOqMY7JRc-cZh3PiftQ,如有侵權,請聯絡管理員刪除。

相關文章