近年來，我們在資料科學和高階分析方面取得了一些進步，但許多專案仍然採用20世紀80年代的遺留技術：萃取(extract)、轉置(transform)和載入(load)，也就是我們所說的ETL。這讓資料架構師感到無比頭疼，但我們似乎又無法超越它，那有什麼方法能改變這個局面嗎？在研究ETL的代替者之前，讓我們先看看這項技術的起源。上世紀80年代和90年代，隨著企業在生產資料庫中積累了越來越多的事務性資料，它們意識到需要專門的商業智慧(BI)系統來進行分析和報告。在許多方面，BI將“p”重新放到了企業資源規劃(ERP)中。

資料倉儲有多種用途。首先，除了核心生產系統之外，它還為連線和分析來自多個源的資料提供了一個通用的位置。它還避免了影響支援生產ERP系統的伺服器及其底層關聯式資料庫。資料倉儲是分析師研究資料和嘗試新想法的有效手段。

由於BI專案的資料將來自於各種來源——包括線上事務處理(OLTP)系統、市場營銷和客戶關係管理，甚至是從第三方資料代理那裡購買。因此公司需要更多專為處理資料型別和工作負載而定製的資料庫軟體。從Arbor Software的Essbase開始，出現了一種新的多維資料庫，用於支援線上分析處理(OLAP)工作負載。

但是將這些豐富的OLTP和客戶資料遷移到OLAP系統中並不是一項簡單的任務。生產資料庫以不同的方式儲存資料，對必須費力對映到資料倉儲的列使用特殊的命名約定。其中一些源系統甚至不是關聯式資料庫，而是專有的大型機檔案系統或平面檔案儲存，這更加大了難度。除了事務性資料之外，還有時間序列和地理資料，所有這些資料都必須經過調整，以適應所選擇的模式。

將所有這些資料轉換為資料倉儲中一致且可用的格式仍然是一項艱鉅的任務。公司僱傭大量的專家和顧問來編寫和維護定製的ETL指令碼，這些指令碼可以將資料敲入資料倉儲中使用的特定模式。無論何時更改源資料庫表或檔案，下游ETL指令碼都需要進行調整，以確保資料倉儲繼續提供相同的資料。

寶付講解除了使用ETL，我們還能做什麼？

相關文章