在資料時代，不少企業學會以資料驅動決策。但是，談及實踐，不少企業又犯了難：如何從海量資料中選擇對業務增長有價值的部分?如何清洗並分析資料以驅動決策?如何不讓龐大的資料降低整體計算效能?這些問題或許都可以在第七屆TOP100全球軟體案例研究峰會(簡稱TOP100summit)的【資料平臺】專場找到答案。

楊波：Spark系統在Uber的架構設計及大規模實踐

近幾年，Spark頻頻出現在各大企業的大資料架構圖中，甚至承載了不少業務關鍵型資料。Uber是一家資料驅動決策的企業，楊波從Uber的資料平臺、對Apache Spark的使用，應用挑戰和改進三方面全面介紹了Spark在Uber內部的架構設計及大規模實踐。

Uber資深工程師楊波

Uber一直希望為使用者提供高可靠的運輸體驗，透過挖掘使用者資料、調研使用習慣不斷調整平臺功能。在資料驅動的背後，Spark起到了非常重要的作用，這也是Uber在資料處理方面使用較多的工具之一。楊波表示，當資料量非常龐大時，Spark是最簡單且開源可用的工具，相較於其他產品，實現同樣功能所需的程式碼量更少，其程式設計介面和語言的選擇也更加豐富。

Uber透過Marmary將資料從Kafka轉入Hadoop平臺，Marmary是一個基於Hadoop的通用資料攝取和分散框架。當資料進入Hadoop之後，Uber有三大資料查詢工具：Hive(on Spark)，Presto，Spark。楊波建議，資料平臺可以建立在開源元件之上，目前Uber的批處理工作以Spark為主。Uber對Spark的一些問題也進行了很多改進，並將部分問題反饋到了開源社群。

吳疆：企業數字化轉型案例：Liberty Mutual數字化轉型之路

據調研，國內有七成企業處於數字化轉型的關鍵期，而不少傳統企業尚沒有很好的方案來邁出數字化轉型的第一步，這份Liberty Mutual數字化轉型案例絕對值得一看。

Pivotal 資深產品經理吳疆

數字化轉型時代，新技術正在逐漸顛覆傳統行業。傳統企業要想扭轉頹勢，必須瞭解數字化轉型的特點以快速適應迅速變化的市場，比如快速釋出應用、移動為先、雲原生和大資料驅動。Liberty Mutual是一家全球職業健康與安全服務研究的領導者，是一家非常典型的傳統企業。

Liberty Mutual選擇與Pivotal合作，從技術選型、開發流程等多維度開展數字化轉型，從應用頻次不是很高的摩托車保險線上銷售開始，在該業務有效運轉並取得了高於行業平均水平的轉化率後，Liberty Mutual選擇與Pivotal全面合作，開啟雲原生實踐、持續交付和Hackathon。在專案開始兩年後，Liberty Mutual執行在公有云上面的應用從5%增加至60%;50%的應用做到按天釋出;75%的IT人員要寫程式碼;透過自動化重複性手工工作節省了1億美元成本，這也體現了Pivotal應用遷移等開源工具的巨大價值。

呂海：Apache Beam: 領英流式計算平臺的最新實踐

在領英內部，大量部署和使用了Apache Samza作為公司的流計算引擎。Samza是由領英開發並開源的大資料流計算系統。目前，Samza在超大資料規模的場景下有很多針對性最佳化，但其前端API尚未完善，因此領英決定引入Beam並將其執行在Samza之上。

領英實時流計算基礎架構團隊技術負責人呂海

Apache Beam是一套資料處理的程式設計模型，目前的Beam IO支援Avro，Kafka，HDFS，HBase和JDBC等，並即將對HDFS(Python)，Kafka(Python)等提供支援。呂海對如何劃分資料-視窗、資料-事件時間以及Samza主要應用場景等內容進行了介紹。未來，領英將繼續最佳化並推廣使用Samza，繼續整合Samza Table API並整合離線計算與流式計算，在流式計算部分使用Samza，離線計算使用Spark，利用Beam統一API。

姚依非：The Evolution Path of Spark/Hadoop on the Cloud

近年來，使用者和服務每天生成的資料量呈指數級增長，這意味著需要在雲中處理的資料量也會激增，這將給雲分析系統帶來巨大壓力。姚依非介紹了谷歌如何在雲平臺中整合開源資料處理框架，比如Hadoop和Spark，服務元件和框架如何最佳整合到雲生態系統以及谷歌對這些框架和元件進行了哪些改進以實現最佳效能。

Google senior software enginee 姚依非

姚依非表示，谷歌Dataproc是一個快速的，易於使用的，低成本且全管理的服務，傳統的Hadoop和Spark叢集在成本、管理等層面存在一些問題，谷歌Dataproc會幫助企業管理叢集，比如Hadoop、Spark等;無論節點數量如何，均可以快速部署叢集，且按秒付費;可隨時增加和減少worker，且沒有延遲;可以與其他工具或者包進行整合。

透過在Google Cloud上成功整合Hadoop/Spark叢集，谷歌讓許多大客戶成功地將其資料處理管道和工作負載遷移上雲。與其他雲產品的改進效能和緊密整合為谷歌提供了優於其他解決方案的效能和使用者體驗優勢。透過自動擴充套件，高可用性和儲存聯結器提高效能和可靠性;透過可調整大小的叢集，度量工具和簡單的ML整合提供了更好的使用者體驗，這是谷歌在易用與高效能結合方面的一次成功實踐。

王哲涵：京東大資料平臺進化之路

如今，大資料技術日趨成熟，Hadoop不再高高在上，已是作為如同資料庫般的基礎軟體設施提供計算與儲存服務。京東大資料平臺從無到有，從量到質，從微創到革新經歷了五年實踐，叢集規模一步步由數百到數萬規模演化。

京東離線平臺研發團隊負責人王哲涵

隨著技術的不斷演進和發展，京東大資料平臺持續面對叢集規模增長帶來的風險與挑戰，其大資料平臺按照規模劃分，可以分為四個演進階段。在這個過程中，京東逐漸解決了集中式和多叢集;突破了規模增長與效能下降的魔咒;保證任務SLA穩定完成;保證物理資源發揮200%的效能;降低部分slave節點故障對叢集的影響;保證叢集每日上線並保證故障隔離;跨機房多主多活架構設計等技術難題。

王哲涵認為，穩定性、效能和規模是京東大資料的三大關鍵問題。就穩定性而言，京東解決了資料熱點、硬體故障、基礎設施故障和異常任務等常見問題;就效能而言，京東做了多區域智慧排程、儲存計算分離、跨機房容災-多活架構等。未來，京東會繼續促進計算、排程和儲存的獨立進化，降低各層之間的耦合性;在各層獨立服務的基礎上，構建統一的“大腦”指揮協調各層系統發揮“1+1=10”的效果;消除“客戶端”模式，增加“服務層”與“資源池”的概念，對外建立統一的API服務列表，讓使用者與叢集資源完全分離。

張小龍：北京銀行金融級NewSQL資料庫探索與實踐

隨著互聯金融對傳統企業的衝擊，提升系統效能只能靠替換式的硬體升級，傳統“巨頭們”在逐漸老化，北京銀行開始了資料庫轉型之路。考慮到高效能、可彈性擴充套件且可自主掌握支援等需求，OLTP場景的資料庫成為北京銀行系統建設的優先選擇方案。考慮到銀行的科技及業務特點，並參考網際網路的成功經驗，充分驗證行內使用效果，最終，北京銀行確定採用NewSQL分散式資料庫。

北京銀行核心系統架構設計張小龍

透過多維度的評測體系對技術架構進行轉型，逐漸實現可擴充套件性和高可用目標，擺脫技術束縛，打破傳統資料庫替換式升級局面，改變傳統資料庫一錘定音的建設方式，實現無感知的平滑升級。未來，北京銀行將繼續尋求自主可控能力，主動在模式和管理層面進行創新，與網際網路思維和技術不斷切磋、碰撞、融合，最終打造出具有北京銀行特色的創新驅動力。

國內外六大技術專家同臺：資料平臺搭建如何有效“避坑”？

相關文章