資料湖中加熱資料?

banq發表於2022-02-13

資料湖:通過一個用於大資料分析的儲存庫來結束資料孤島。想象一下,有一個單一的地方來存放您的所有資料以進行分析,以支援以產品為主導的增長和業務洞察力。可悲的是,資料湖的想法一度冷落,因為早期的嘗試是建立在基於 Hadoop 的儲存庫上,這些儲存庫是本地的,缺乏資源和可擴充套件性。我們以“Hadoop 宿醉”告終。

過去的資料湖以管理挑戰和價值實現速度慢而聞名。但是雲物件儲存的加速採用,以及資料的指數級增長,使它們再次具有吸引力。

事實上,我們現在比以往任何時候都更需要資料湖來支援資料分析。雖然雲物件儲存最初作為一種經濟高效的臨時儲存或存檔資料方式而流行起來,但它已經流行起來,因為它價格低廉、安全、耐用且具有彈性。它不僅具有成本效益,而且很容易將資料流式傳輸。

 

資料湖還是資料沼澤?

雲物件儲存的經濟性、內建安全性和可擴充套件性鼓勵企業儲存越來越多的資料--創造一個具有無限潛力的資料分析的巨大資料湖。企業明白,擁有更多的資料(而不是更少)可以成為一種戰略優勢。不幸的是,在最近的歷史上,許多資料湖計劃失敗了,因為資料湖變成了一個資料沼澤--由不容易被訪問或使用的冷資料組成。許多人發現,將資料傳送到雲端很容易,但要讓整個組織的使用者都能訪問這些資料,並從中得到啟發,卻很難。這些資料湖成了多結構資料集的垃圾場,積累和收集數字灰塵,沒有一絲承諾的戰略優勢。

簡單地說,雲物件儲存並不是為通用分析而建立的,並不像Hadoop那樣。為了獲得洞察力,資料必須被轉化並從湖中移出,進入分析資料庫,如Splunk、MySQL或Oracle,具體取決於使用情況。這個過程是複雜、緩慢和昂貴的。這也是一個挑戰,因為該行業目前面臨著資料工程師的短缺,他們需要清理和轉換資料,並建立所需的資料管道,以將其納入這些分析系統。

Gartner發現,儘管有這些眾所周知的挑戰,超過一半的企業計劃在未來兩年內投資於資料湖。資料湖有數量驚人的用例,從通過安全日誌調查網路入侵到研究和改善客戶體驗。這也難怪企業仍然堅持資料湖的承諾。那麼,我們如何才能清理沼澤,確保這些努力不會失敗?而關鍵的是,我們如何解鎖並提供對儲存在雲中的資料的訪問--這是所有障礙中最重要的?

 

提高冷雲端儲存的熱度

讓雲物件儲存為資料分析加熱是可能的(而且是最好的),但這需要重新思考架構。我們需要確儲存儲具有資料庫的外觀和感覺,在本質上,將雲物件儲存變成一個高效能的分析資料庫或倉庫。擁有 "熱資料 "需要在幾分鐘內快速方便地訪問,而不是幾周或幾個月,即使是在每天處理幾十兆位元組的時候。這種型別的效能需要一種不同的方法來進行資料管道化,避免轉換和移動。所需要的架構就像壓縮、索引和通過眾所周知的API將資料釋出到Kibana和/或Looker等工具一樣簡單,以便一次性儲存,減少移動和處理。

提高資料分析熱度的最重要方法之一是通過促進搜尋。具體來說,搜尋是資料的最終民主化,允許自助式的資料流選擇和釋出,而不需要IT管理員或資料庫工程師。所有的資料都應該是完全可搜尋的,並且可以使用現有的資料工具進行分析。想象一下,讓使用者有能力隨意搜尋和查詢,輕鬆地提出問題,輕鬆地分析資料。大多數比較知名的資料倉儲和資料湖庫平臺都沒有提供這個關鍵功能。

但一些具有前瞻性的企業已經找到了方法。以BAI通訊公司為例,其資料湖戰略採用了這種型別的架構。在主要的通勤城市,BAI提供最先進的通訊基礎設施(蜂窩、Wi-Fi、廣播、無線電和IP網路)。BAI將其資料流向建立在亞馬遜S3雲物件儲存上的集中式資料湖,在那裡它是安全的,並符合許多政府法規。使用建立在雲物件儲存上的資料湖,並通過多API資料湖平臺啟用分析,BAI可以比以前更快、更容易地找到、訪問和分析其資料,而且成本更有控制。該公司正在利用其全球網路多年來產生的洞察力,幫助鐵路運營商維持交通流量和優化路線,將資料洞察力轉化為商業價值。這種方法在大流行病發生時被證明特別有價值,因為BAI能夠深入瞭解COVID-19對世界各地的區域性公共交通網路的影響,以便他們能夠繼續為市民提供關鍵的連線。

 

相關文章