Intuit如何在一個Lakehouse上構建AI、分析和流資料

qing_yun發表於2022-07-12

Intuit公司擁有1億多客戶,收入接近100億美元,有大規模的資料處理需求,也有大規模的挑戰。如果為每個大資料專案建立獨立架構,這將加劇資料孤島的問題,Intuit採取了統一的方法,利用Lakehouse作為整個企業的資料標準。

Intuit公司以TurboTax和QuickBooks聞名,這是有史以來最成功的兩個消費金融產品。但隨著最近機器學習的發展以及對Credit Karma和Mailchimp的收購,Intuit正在推進將自己改造成一個AI巨頭。

“Intuit正在轉型為一個人工智慧驅動的專家平臺,”該公司產品管理副總裁Alon Amit在Databricks的資料+人工智慧峰會上說。“我們正在幫助人們走向繁榮,曾經希望幫助你完成你的稅收和賬目的工作。但現在它意味著更多。”

例如,該公司正在使用機器學習來幫助對QuickBooks中的交易進行分類,將客戶從手動分類的繁瑣工作中解救出來。這需要機器學習非常個性化,就像Credit Karma服務一樣,根據輸入的資訊自動推薦個人如何提高他們的信用評分。

開發這些新的資料驅動的產品需要有一個可靠的資料架構來構建。該公司希望避免為每個專案構建不同的資料系統,而是讓成千上萬的分析師、資料科學家和軟體工程師在同一個頁面上使用統一的資料檢視。

Intuit的資料架構包含了許多部件(圖片來源:Intuit)

三年前,當Amit和Manish Amde(現在是Intuit的工程總監)一起加入公司時,Intuit還沒有這種架構。Amit和Amde都曾在Origami Logic工作,該公司被Intuit收購,幫助建立資料和AI架構。

“我們的資料之旅開始於一個在座的許多人都會熟悉的地方,”Amde在資料+人工智慧峰會的主題演講中說。“我們的資料生態系統很大,很複雜,很混亂。我們需要一個戰略,為消費者和小企業客戶釋放這些資料的全部潛力。”

Intuit面臨的一大挑戰是存在多個資料孤島。幾十年的歷史資訊包含在數十萬個資料庫表中,這些資訊對於幫助Intuit公司的分析師和資料科學家洞察客戶需求和建立新產品至關重要。但是,這些資訊分散在企業的各個角落,這使得它們很難被訪問。複製資料是最主要的解決方案,但這也會帶來延遲和正確性方面的問題。

“為了加速我們的資料之旅,我們需要一個統一的架構,能夠打破資料孤島,加速整個公司團隊的生產力,”Amde說。“這個架構需要能夠大規模地支援不同的工作負載,包括儲存和計算;通過流資料支援實時應用;它需要建立在開源的基礎上,讓我們有機會使用一流的工具,並有機會回饋社會。”

資料之旅

當Amit和Amde來到Intuit時,就像大多數成功的、價值100億美元的公司那樣,他們面臨著一定的技術包袱。首先,Intuit是在AWS的上面,它在雲上執行一個大型的 "Parquet叢集"。是RedShift和Athena客戶,而且沒有理由離開它們。應用了Apache Flink,因為它可以為流資料提供低延遲。

Amit和Amde需要在這些限制條件(以及其他限制條件)下工作,並找到解決方案。兩人在Oragami Logic工作時已經熟悉了Databricks,並知道該平臺的能力。Amde還曾與Databricks的創始人合作過,當時Spark還是加州大學伯克利分校AMP實驗室的一個相對陌生的計算專案。

“我們在開源方面進行了合作,”Amde說。“我當年為機器學習庫做出了貢獻。所以我們知道對方是如何編碼的。這就是信任的來源。”

資料負責人對新的資料架構有幾點要求。首先,內部使用者需要能夠快速獲得查詢結果並建立資料管道,以促進實驗文化。他們還希望有一個能夠處理事務的儲存庫。

“我們有Parquet,我們的資料湖中有大量的資料。”Amde說。“但我們希望有類似ACID的事務,這樣我們就可以開始做幾乎實時的處理,無論是寫還是讀,當有業務需求時。”

最重要的是,Intuit需要的是一個單一的資料架構,可以為多種使用情況提供資料。

“當我們加入Intuit並開始考慮這個資料架構時,我們並沒有想過,哦,我們需要為資料科學家建立一個資料架構,為分析建立另一個資料架構。這從來不是我們的計劃,”Amit說。“因為我們兩個人都在這裡呆了很久,知道當你有多個架構時,你就有多個資料。人們讀到的資料會不同。而我們不希望這樣。”

直觀展示

Intuit決定將其新的資料架構建立在Databricks的Delta Lake之上。通過結合傳統上與資料倉儲相關的元素(如ACID事務和質量保證)以及資料湖的可擴充套件性和靈活性優勢,Databricks聲稱已經在不可治理的資料沼澤和緩慢適應的資料倉儲之間找到了媒介。

Intuit公司戰略的一個關鍵因素是稱為資料地圖的東西。資料地圖由三類資料組成,包括物理層(包含資料和產生資料的程式碼的位置資訊);操作層(包含關於所有權、系統依賴性和資料分類的資訊);以及業務層(捕獲業務背景並暴露資料與其他實體的邏輯模型)。

“所有這三個層次結合在一起,幫助我們回答我們的生產者或消費者對Lakehouse資料的所有可能問題,”Amde說。“有了這些,我們已經能夠建立一個令人愉快的資料發現體驗,使使用者能夠搜尋和瀏覽資料,並探索其他商業實體的關係。”

新的資料專案進行了兩年,事情的發展似乎與Intuit的預期差不多。資料工作還沒有完成(資料工作永遠不會完成),但已經開始有所回報了。

Intuit的Lakehouse架構可以容納Spark Streaming以及Flink的實時處理。其分析師能夠使用Redshift和Athena以及Databricks SQL和Photon驅動的資料科學筆記本訪問相同的資料集。該公司能夠繼續使用Sagemaker作為其主要的資料科學開發工具,並在MLFlow的支援下實現機器學習工作自動化。

但Lakehouse架構最重要的方面是,Intuit公司的不同資料角色對同一資料集都有一致的看法。Amit說,這是一個不容低估的關鍵成就。

“[我們]更深刻了解到讓公司開始有大規模生產具有邏輯和商業意義的資料文化是多麼困難,所以你不想要求人們做兩次--一次給分析師,一次給資料科學家,”Amit說。“這樣做更好,因為每個人都在看同樣的資料。”

Amit和Amde還高興地看到,Databricks已經承諾將其Delta Table的其餘部分開源。技術專家們曾鼓勵Databricks這樣做,而該公司這樣做的事實消除了Iceberg的核心優勢之一,Iceberg是該公司競爭的另一種開放表格式(此外,還有Hudi)。

來自 “ https://www.datanami.com/2022/07/11/how-intuit-is- ”,原文連結:http://blog.itpub.net/69925873/viewspace-2905304/,如需轉載,請註明出處,否則將追究法律責任。

相關文章