什麼是資料轉換?

Tybyq發表於2018-12-03

資料轉換定義

資料轉換是將資料從一種格式或結構轉換為另一種格式或結構的過程。 資料轉換對於資料整合和資料管理等活動至關重要。 資料轉換可以包括一系列活動:您可以轉換資料型別,透過刪除空值或重複資料來清理資料,豐富資料或執行聚合,具體取決於專案的需要。

通常,該過程涉及兩個階段。

在第一階段,您:

  • 執行資料發現,以識別源和資料型別。

  • 確定需要發生的結構和資料轉換。

  • 執行資料對映以定義各個欄位的對映,修改,連線,過濾和聚合方式。

在第二階段,您:

  • 從原始源提取資料。 源的範圍可以變化,包括結構化源(如資料庫)或流式源(如連線裝置的遙測)或使用Web應用程式的客戶的日誌檔案。

  • 執行轉換。 您可以轉換資料,例如聚合銷售資料或轉換日期格式,編輯文字字串或連線行和列。

  • 將資料傳送到目標商店。 目標可以是處理結構化和非結構化資料的資料庫或資料倉儲。

為何轉換資料?

出於多種原因,您可能希望轉換資料。 通常,企業希望轉換資料以使其與其他資料相容,將其移動到另一個系統,將其與其他資料連線,或者聚合資料中的資訊。

例如,請考慮以下情形:您的公司已購買了較小的公司,您需要為人力資源部門合併資訊。 購買的公司使用與母公司不同的資料庫,因此您需要做一些工作以確保這些記錄匹配。 每個新員工都已獲得員工ID,因此這可以作為一個關鍵。 但是,您需要更改日期的格式,您需要刪除任何重複的行,並且您必須確保Employee ID欄位沒有空值,以便考慮所有員工。 在將資料載入到最終目標之前,所有這些關鍵功能都在暫存區域中執行。

轉換資料的其他常見原因包括:

  • 您正在將資料移動到新的資料儲存;  例如,您正在遷移到雲資料倉儲,您需要更改資料型別。

  • 您希望將非結構化資料或流資料與結構化資料相結合,以便您可以一起分析資料。

  • 您希望向資料新增資訊以豐富它,例如執行查詢,新增地理位置資料或新增時間戳。

  • 您希望執行聚合,例如比較來自不同地區的銷售資料或來自不同地區的總銷售額。

資料是如何轉換的?

有幾種不同的方法可以轉換資料:

  • 指令碼。 一些公司使用SQL或Python透過指令碼執行資料轉換,以編寫程式碼來提取和轉換資料。

  • 內部部署ETL工具 ETL(提取,轉換,載入)工具可以透過自動化流程來完成指令碼轉換的大部分痛苦。 這些工具通常託管在您公司的站點上,可能需要大量的專業知識和基礎架構成本。

  • 基於雲的ETL工具 這些ETL工具託管在雲中,您可以利用該供應商的專業知識和基礎架構。

資料轉換挑戰

由於多種原因,資料轉換可能很困難:

  • 耗時 您可能需要廣泛清理資料,以便轉換或遷移它。 這可能非常耗時,並且是使用非結構化資料的資料科學家的常見抱怨。

  • 費錢 根據您的基礎架構,轉換資料可能需要專家團隊和大量的基礎架構成本。

  • 慢。 由於提取和轉換資料的過程可能會給您的系統帶來負擔,因此通常會分批進行,這意味著您可能需要等待最多24小時才能處理下一批。 這可能會花費您時間做出業務決策。

大規模管理資料並不難。 瞭解完全免費的   開源HPCC Systems   平臺如何使其更易於更新,更易於程式設計,更易於整合資料以及更易於管理群集。  立即下載並開始   使用。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31557424/viewspace-2222566/,如需轉載,請註明出處,否則將追究法律責任。

相關文章