一文讀懂:本地資料湖丨資料倉儲丨雲資料湖的利與弊
資料湖指的是一箇中心位置,大量資料以原始的、非結構化的格式儲存,其中包含有關資料和惟一識別符號的資訊。它們儲存的資料可以稍後進行處理,以提取有價值的業務見解並推動業務向前發展。
這種型別的靈活組織允許儲存結構化和半結構化資料,而無需擔心被鎖定在資料倉儲等專有系統中。雖然資料湖需要專家的眼光來有效地管理和處理資料,但這最終會更加持久和划算。
如何打造資料湖?
如果你想為自己的企業建立一個資料湖,你需要考慮以下步驟:
1.選擇靈活的雲端儲存解決方案:您可以在Amazon Web Services和Microsoft Azure等平臺上設定資料湖。使用其中一種服務可以讓你避免鉅額的前期成本,因為這些雲服務只會根據你使用每項服務的數量收費。
2.找出資料的來源:識別資料的來源和新增新資料的頻率是有幫助的。您可以選擇按原樣新增資料,也可以選擇根據組織的要求清理資料。
3.建立流程:資料來自不同的來源,您可以與各個部門進行溝通,以確定釋出資料的最佳過程、工作流和時間表。
4.測試資料湖:經常測試資料湖是很重要的,以確保您能夠成功地檢索和使用資料湖中的資料。這對於確保業務需求增長和變化時的連續性尤其重要。
5.使用資料:完成上述步驟後,您將擁有一個有效收集資料的系統。然後,您將需要使用各種提取、轉換和載入過程從資料中獲得價值。您可以使用資料倉儲和視覺化工具來實現這一點。Microsoft Power BI和Tableau等解決方案對於處理資料和從原始資料中得出意義非常有用。
資料倉儲 vs 資料湖
雖然資料倉儲和資料湖具有相同的目的,因為它們是資料的儲存位置,但也有一些關鍵的區別。
首先,資料倉儲在讀取資料之前已經有了預期的資料佈局。另一方面,資料湖可以接受任何格式的資料。對於資料湖,在讀取資料之後對資料進行組織。
資料湖還要求使用者具有不同資料型別的專家知識,因為資料是無組織的,格式不同。更廣泛的使用者更容易訪問資料倉儲,因為其結構本身就定義良好。
但是,資料倉儲的結構化性質意味著設定一個資料倉儲需要更多的時間來配置和調整。相比之下,資料湖可以更快速、更容易地進行調整。
資料湖的好處
使用資料湖有很多好處:如,增加對商業趨勢和機會的洞察力;使用開源技術(如Hadoop和Spark)降低了實現成本;處理前不需要對資料進行組織;更靈活的分析方法。
資料湖的挑戰
雖然資料湖有很多好處,但也要注意以下挑戰:如,有成為資料垃圾場的風險,這些資料會阻礙有價值的分析;需要更有經驗和知識的使用者;如果資料湖環境不受控制,成本可能會不斷上升。
雲 vs 本地資料湖
在本地方面,內部資料湖通常提供強大的效能,這也意味著機密資料在您的控制之下,訪問資料時延遲問題更少,然而,這裡有一些內部設定的挑戰:如,物理伺服器會佔用大量的物理空間;安裝可能是一個昂貴和耗時的過程;很難新增更多的物理伺服器,這限制了可伸縮性。
在雲方面,雲中的資料湖更划算,因為你只需要為你在任何給定時間使用的資料付費。它們也不需要你建立物理伺服器,這意味著雲資料湖更容易擴充套件,因為你不需要增加更多的物理伺服器容量。然而,我們也必須意識到基於雲的資料湖所帶來的挑戰:如,敏感資料的安全性較低;對資料治理和可訪問性的控制更少。
資料湖的實際案例分享
Sisense的資料湖利用了AWS的生態系統。該公司擁有超過700億條記錄,並使用其資料湖架構有效地管理這些資料。它能夠通過各種視覺化工具從資料中提取價值,包括Sisense自己的視覺化軟體。
Depop是一款總部位於倫敦的社交購物應用。數千名使用該應用傳送訊息和購買商品的客戶建立了一個持續不斷的事件和資料流。反過來,該公司使用Amazon S3來處理這個龐大的資料流,並使用它來通知他們的業務決策。
ironSource是一個應用內盈利和視訊廣告平臺。它處理來自數百萬終端裝置的流資料,因此需要一個解決方案來處理這些大量湧入的資料。該公司選擇了Upsolver,它可以處理每秒高達50萬個事件流。
Peer39是廣告和數字營銷行業的領導者。它分析了超過4.5億個網頁,以獲得它們所包含文字的真正含義。這給了廣告商更準確的資訊,所以他們可以最大化他們的廣告費用。Peer39使用Upsolver來處理這大量的資料。
SimilarWeb是一家提供數字世界洞察力的營銷情報公司。它能夠通過從各種來源收集大量資料來實現這一點。SimilarWeb需要分析數千TB的資料,因此它使用Amazon S3、Amazon Athena和Upsolver的組合來實現這一點。
來自 “ https://www.serverwatch.com/storage/data-lake/ ”,原文連結:http://blog.itpub.net/28285180/viewspace-2898536/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 一文讀懂選擇資料湖還是資料倉儲
- 資料湖+資料倉儲 = 資料湖庫架構架構
- 資料倉儲、資料湖與湖倉一體的區別與聯絡
- 讀資料湖倉06資料整合
- 讀資料湖倉02資料抽象抽象
- 讀資料湖倉04資料架構與資料工程架構
- 資料湖 vs 資料倉儲 vs 資料庫資料庫
- 資料湖會取代資料倉儲嗎?
- 談談資料湖和資料倉儲
- 關於資料湖、資料倉儲的想法
- 讀資料湖倉01讓資料可信
- 萬字詳解資料倉儲、資料湖、資料中臺和湖倉一體
- 資料倉儲被淘汰了?都怪資料湖
- 資料湖和中央資料倉儲的設計
- 讀資料湖倉05資料需要的層次
- 讀資料湖倉03不同型別的資料型別
- 讀資料湖倉08資料架構的演化架構
- 讀資料湖倉07描述性資料
- 資料湖 VS 資料倉儲之爭?阿里提出大資料架構新概念:湖倉一體阿里大資料架構
- 資料網格將替代資料倉儲或資料湖?- thenewstack
- 資料湖是下一代資料倉儲?
- 資料倉儲 vs 資料湖 vs 湖倉一體:如何基於自身資料策略,選擇最合適的資料管理方案?
- 通俗語言解釋資料倉儲、資料湖、資料中臺
- 奈學:資料湖和資料倉儲的區別有哪些?
- 資料湖是誰?那資料倉儲又算什麼?
- 資料湖 vs 倉庫 vs 資料庫資料庫
- 消除資料重力,從智慧湖倉(Lake House)讀懂實現資料價值的未來
- 資料湖
- 資料倉儲、資料集市、資料湖、資料中臺到底有什麼區別?
- 讀資料湖倉09讀後總結與感想兼導讀
- 有了資料湖,資料倉儲究竟能不能被取代?
- 資料倉儲、資料集市、資料湖,你的企業更適合哪種資料管理架構?架構
- 資料湖中加熱資料?
- 湖倉一體,Hologres加速雲資料湖DLF技術原理解析
- 讀資料質量管理:資料可靠性與資料質量問題解決之道02資料湖倉
- 阿里云云原生資料湖分析DLA重磅釋出-資料湖管理,助力企業一站式管理OSS資料湖儲存資料阿里
- 從火星的古海洋,讀懂藍星的資料湖之變
- 如何用好雲原生資料湖?