亞馬遜雲科技幫助BMW Financial Services設計和構建資料架構

全球科技動態發表於2023-04-13

BMW Group和亞馬遜雲科技於2020年宣佈達成全面戰略合作。在re:Invent2019上,BMW和亞馬遜雲科技展示了新的雲資料中心平臺,先是大致介紹了不同的資料平臺原型,然後介紹了構建BMW Group雲資料中心的過程。Amazon Data Lab使用亞馬遜雲科技的雲資料中心,幫助歐洲BMW市場之一構建監管報告應用程式。


解決方案概覽

 在監管報告背景下,BMW Financial Services處理包含個人身份資訊(PII)的關鍵金融服務資料。其需要每月向歐洲國家監管機構之一提供針對我們財務資料的深入分析,而且在處理PII資料時,還需要遵守Schrems II和GDPR法規。這要求在將PII載入到雲資料中心時對其進行假名化,並且必須以假名的形式對其進行進一步處理。為了高效地滿足這些要求,BMW Financial Services決定與Amazon Data Lab合作,Amazon Data Lab的Design Lab就能夠提供幫助。


Design Lab

 Design Lab是一項1到2天的活動,適用於需要真實架構建議但尚未準備好構建的客戶,這些建議基於Amazon專業知識。在開始構建階段之前,關鍵是讓所有利益相關方聚集在一起,記錄各方提出的可能影響資料平臺的所有功能性和非功能性要求。在Design Lab的工作範圍內,我們討論了三個使用案例:

  • 監管報告

 BMW Financial Services最重要的任務是監管報告使用案例,這涉及到收集與計算向國家監管機構申報的資料和報告。

  • 本地資料倉儲

 對於此使用案例,需要計算和儲存專案期間將會定義的所有關鍵績效指標(KPI)和關鍵價值指標(KVI)。需要儲存歷史資料,但需要遵守GDPR指令應用假名化流程。此外,每天都必須透過Tableau視覺化工具訪問歷史資料。在應用程式中限制使用個人資料,但對於獲得授權的使用模式,必須可以進行重新識別。

  • 會計明細

 此使用案例基於BMW的會計工具IFT,該工具在合同級別提供來自所有當地市場應用程式的會計餘額。它必須每月至少進行一次。但是,如果在結算期間發現了IFT上的一些問題,必須能夠重啟並刪除之前的結果。同時,所有會計餘額版本都必須可供其他應用程式訪問以進行查詢,並且能夠檢索24個月內的資訊。

基於這些要求,其在Design Lab期間開發了以下架構,此解決方案包含以下元件:

  • 為三個使用案例提供資料的主資料來源已經在雲資料中心中公佈。雲資料中心使用Amazon Lake Formation資源連結向使用者賬戶授予對資料集的訪問許可權。

  • 對於標準的定期提取、轉換和載入(ETL,Extract,Transform,and Load)作業,如果涉及到轉換資料型別、根據數值資料建立標籤或者根據標籤建立布林值標記等操作,使用Amazon Glue ETL作業。

  • 對於歷史的ETL作業或更復雜的計算,例如賬戶詳細資訊使用案例(可能涉及與自定義配置和調整的大量關聯),建議使用Amazon EMR。這可以在精細級別上控制叢集配置。

  • 要儲存可以實現重新處理輸入或重新執行失敗作業等功能的作業後設資料,建議構建資料登錄檔。資料登錄檔的目標是為提取到資料湖中的所有資料建立集中清單。可以觸發基於計劃的Amazon Lambda函式,在集中式後設資料儲存中雲資料中心的語義層上註冊資料登陸。建議為資料登錄檔使用Amazon DynamoDB。

  • Amazon Simple Storage Service(Amazon S3)用作儲存機制,支援使用資料管理框架Apache Hudi的監管報告使用案例。Apache Hudi對使用案例很有用,因為需要開發資料管道,滿足對記錄級別的插入、更新、更新插入和刪除功能的需求。Amazon EMR和 Amazon Glue作業透過Hudi聯結器以及Amazon Athena和Amazon Redshift Spectrum等查詢引擎支援Hudi表。

  • 在監管報告S3儲存桶的資料儲存過程中,可以在Amazon Glue Data Catalog中填充所需的後設資料。

  • Athena提供了一個臨時查詢環境,用於使用標準SQL對儲存在Amazon S3中的資料進行互動式分析。它與Amazon Glue Data Catalog進行了整合,具備開箱即用的特點。

  • 對於資料倉儲使用案例,需要首先對資料進行反規範化,以建立支援最佳化分析查詢的維度模型。為了進行這種轉換,可以使用Amazon Glue ETL作業。

  • Amazon Redshift中的維度資料集市可以支援控制皮膚和自助報告需求。Amazon Redshift中的資料根據業務需求劃分為多個主題區域,透過維度模型可以進行跨主題區域分析。

  • 作為建立Amazon Redshift叢集的副產品,可以使用Redshift Spectrum訪問該架構的監管報告儲存桶中的資料。它充當了訪問更精細資料的前端,而無需將其實際載入到Amazon Redshift叢集中。

  • 提供給雲資料中心的資料包含假名化的個人資料。但是,在Tableau上視覺化資料或者在生成CSV報告時,需要能夠對假名化的列重新進行個性化設定。Athena和Amazon Redshift均支援Lambda UDF,它可用於訪問雲資料中心PII API,以便在將假名化的列呈現給終端使用者之前對其重新進行個性化設定。

  • Athena和Amazon Redshift均可透過JDBC(Java Database Connectivity,Java 資料庫連線)進行訪問,為資料使用者提供訪問許可權。

  • 可以在Amazon Glue中使用Python shell作業,對任一分析解決方案執行查詢,將結果轉換為所需的CSV格式,然後將它們儲存到BMW受保護的資料夾中。

  • 在本地部署的任何商業智慧(BI)工具都可以連線到Athena和Amazon Redshift,並可利用它們的查詢引擎執行任何繁重的計算,然後再接收提供給控制皮膚的最終資料。

  • 對於資料管道編排,建議使用Amazon Step Functions,因為它具有低程式碼開發體驗,並且與討論的所有其他元件全面整合。

 以上述架構為長期目標狀態,結束Design Lab,並返回Build Lab以加快解決方案的開發。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70028533/viewspace-2945495/,如需轉載,請註明出處,否則將追究法律責任。