寶付講解除了使用ETL,我們還能做什麼?
近年來,我們在資料科學和高階分析方面取得了一些進步,但許多專案仍然採用20世紀80年代的遺留技術:萃取(extract)、轉置(transform)和載入(load),也就是我們所說的ETL。這讓資料架構師感到無比頭疼,但我們似乎又無法超越它,那有什麼方法能改變這個局面嗎?在研究ETL的代替者之前,讓我們先看看這項技術的起源。上世紀80年代和90年代,隨著企業在生產資料庫中積累了越來越多的事務性資料,它們意識到需要專門的商業智慧(BI)系統來進行分析和報告。在許多方面,BI將“p”重新放到了企業資源規劃(ERP)中。
資料倉儲有多種用途。首先,除了核心生產系統之外,它還為連線和分析來自多個源的資料提供了一個通用的位置。它還避免了影響支援生產ERP系統的伺服器及其底層關聯式資料庫。資料倉儲是分析師研究資料和嘗試新想法的有效手段。
由於BI專案的資料將來自於各種來源——包括線上事務處理(OLTP)系統、市場營銷和客戶關係管理,甚至是從第三方資料代理那裡購買。因此公司需要更多專為處理資料型別和工作負載而定製的資料庫軟體。從Arbor Software的Essbase開始,出現了一種新的多維資料庫,用於支援線上分析處理(OLAP)工作負載。
但是將這些豐富的OLTP和客戶資料遷移到OLAP系統中並不是一項簡單的任務。生產資料庫以不同的方式儲存資料,對必須費力對映到資料倉儲的列使用特殊的命名約定。其中一些源系統甚至不是關聯式資料庫,而是專有的大型機檔案系統或平面檔案儲存,這更加大了難度。除了事務性資料之外,還有時間序列和地理資料,所有這些資料都必須經過調整,以適應所選擇的模式。
將所有這些資料轉換為資料倉儲中一致且可用的格式仍然是一項艱鉅的任務。公司僱傭大量的專家和顧問來編寫和維護定製的ETL指令碼,這些指令碼可以將資料敲入資料倉儲中使用的特定模式。無論何時更改源資料庫表或檔案,下游ETL指令碼都需要進行調整,以確保資料倉儲繼續提供相同的資料。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69905323/viewspace-2656304/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 2019 我們除了Android還可以學什麼?Android
- 找工作除了海投簡歷和刷題,我還能做什麼?
- 提起“縫合怪”,除了抄襲,我們還能聊什麼?
- 除了用於銷售還能做什麼,CRM系統?
- 覆盤阿里雲故障,除了罵,還能做些什麼?阿里
- 除了“好玩”,電子遊戲還能為我們帶來什麼?遊戲
- 這一次,除了罵阿里雲,還能做些什麼?阿里
- 豐田除了精益生產,還有什麼值得我們學習?
- 除了眾人皆知的基本功能,MES還能做什麼?
- 周朝陽:規則本就存在,我們能做些什麼
- 2019 為什麼我們還會繼續使用 PHP ?PHP
- 美團面試:Redis 除了快取還能做什麼?可以做訊息佇列嗎?面試Redis快取佇列
- PG資料庫最佳化上我們都能做點什麼資料庫
- 除了寶塔,還有什麼好用的伺服器管理皮膚工具?伺服器
- 除了畫佩奇我們還要玩點更高階的
- 除了唱歌,還能做手術!智慧音響咋有這麼大本領
- GC是什麼?為什麼我們要去使用它GC
- 為什麼我們不使用GraphQL? - Wundergraph
- 關於kubernetes我們還有什麼可做的?
- 我們還想玩到什麼樣的恐怖遊戲遊戲
- 清華自然語言處理科學家孫茂松:深度學習碰壁之後,我們還能做什麼?自然語言處理深度學習
- 講道理,React中,我們為什麼需要寫 super(props)?React
- 廣州牽引力科技深入講解學習Java能做什麼工作?Java
- 『除了網紅城市,我們從抖音資料中還能看到什麼?』今日資料行業日報(2019.05.29)行業
- 推薦那麼準,除了模型,還有什麼。。。模型
- 淺析大促備戰過程中出現的fullGc,我們能做什麼?GC
- 除了“打擊感”我們還有啥?聊聊怎麼設計動作遊戲(七)遊戲
- 丁磊:那時候我們除了會寫軟體 什麼也不會做
- 我們為什麼要使用CRM系統?
- 為什麼我們做分散式使用Redis?分散式Redis
- 男女養老金差距平均在30%至40%,對此我們能做些什麼?
- 全面瞭解 Nginx 到底能做什麼Nginx
- 全面瞭解Nginx到底能做什麼Nginx
- 央行:區塊鏈能做什麼、不能做什麼?區塊鏈
- 【財富空間】除了晶片,我們還應關注哪些核心技術晶片
- Service Mesh是什麼,為我們解決了什麼問題?
- 關於《絕區零》,我們還能討論些什麼?
- 除了臭豆腐,你還知道長沙有什麼?