十年磨一劍!SACC帶你領略企業大資料平臺實踐最佳化!

大資料頻道發表於2018-10-22

十餘年來,企業架構經過了數次迭代和變遷,ITPUB是這一切的重要見證者,同樣陪伴了無數架構師的成長。10月17日,第十屆中國系統架構師大會以“十年架構,成長之路”為主題,雲集了國內CTO、研發總監、高階系統架構師、開發工程師和IT經理等技術人群,與會規模超千人。本屆大會特設四大主線,其中,主線二為基於大資料平臺的應用實踐,數位技術專家傾囊相授,SACC十年磨礪,涅槃起航!

搜狗雲平臺資深高階開發工程師申賢強:YARN基於負載的排程引擎最佳化

隨著公司業務的增長和規模擴大,內部多Hadoop叢集的狀況導致整個叢集的負載並不均衡,資源需求在增加,但資源的整體利用率卻不高。搜狗在Hadoop平臺排程引擎最佳化方面做了很多工作,比如叢集間基於負載的彈性伸縮排程模型,以及叢集內基於node真實負載的排程模型。排程引擎最佳化的目的是解決叢集間負載不均衡,以及叢集內node節點間負載差距大問題,同時降低單一或者多個node資源爭搶對業務的影響,均衡叢集負載,充分合理利用資源,提升業務穩定性。

面對預算不多但需要更多資源,叢集高低峰時期的資源利用率差異明顯等問題,搜狗認為彈性伸縮排程不失為一個可行的解決方案。最初,搜狗在客戶端整合叢集負載判斷邏輯,但是,這種狀態很容易實現“伸”但並不易實現“縮”。透過在Yarn 3.0版本中提出的AMRM Proxy技術,搜狗很好得解決了第一版本中存在的問題。最終解決了計算隨著儲存的問題,均衡了叢集負載,提高了資源利⽤率且對業務透明。

蘇寧易購IT總部中臺研發技術總監錢津津:蘇寧智慧零售之電商大資料實踐

在眾多的電商購物狂歡節中,蘇寧一直都是不容忽視的存在,可能很多人對蘇寧的印象還停留在電器層面,但如今的蘇寧已經成長為全品類經營、全渠道運營、全球化擴充的O2O零售商。隨著蘇寧戰略轉型中業務形態越來越複雜,大資料在蘇寧戰略中扮演的角色也越來越重要。

錢津津介紹了蘇寧智慧零售的現狀,結合對蘇寧新一代資料產品諸葛大師的業務和系統架構剖析, 及在建設過程中的關鍵技術升級和選型,詳細說明如何利用大資料技術解決業務的痛點和難點。對於企業普遍面臨的資料海量、分片嚴重、業務系統彈性伸縮、時效要求高等問題,諸葛大師在資料採集方面應用了業務系統下發、埋點日誌、Streaming抽取、Q/Bin log同步和爬蟲等核心技術來解決資料丟失、重複或擁堵等可能的問題。諸葛為了滿足不同的業務需求,幾乎整合了主流的各種計算引擎。最終,整個系統實現了資料驅動業務,進行資料化管理與運營,並給領導者以決策支援。

白帽匯創始人兼CTO龍專:網路空間測繪的實現與架構

網路空間測繪是近幾年興起的網路安全技術,它透過快速的埠掃描、協議識別等技術來對全球的資產進行梳理,結合產品規則庫對全球資產進行畫像。在安全漏洞突發的時候,能夠快速進行漏洞專掃,這種新技術的架構到底是什麼樣呢?

龍專表示,網路空間測繪是一種資產建模技術,透過識別聯網的物件,獲取IP、埠、協議和產品資訊,以搜尋引擎的方式提供服務並支援快速、輕量級漏洞專掃。其四大要素包括埠掃描、協議識別、產品識別和漏洞專掃。歷經了多輪技術迭代和架構升級,龍專所在的白帽匯的FQFA最終可在三分鐘內完成全網漏洞報告。

品友互動首席架構師王曉鵬:品友大資料分析平臺的架構和演化

王曉鵬本身是一位技術界的老兵,他對於大資料、資料分析以及架構設計均做過很多思考。大資料分析主要包括資料收集、資料清理、資料建模、資料分析和資料視覺化等步驟。其中,資料分析又分為四大層次:描述性分析、診斷性分析、預測性分析和處方性分析。

品友對大資料分析的應用主要體現在投放分析和企業資料管理兩大平臺,廣告投放平臺主要使用者為廣告投放運營,企業資料管理平臺的資料來源豐富,主要受眾群體是企業市場、IT人員和資料分析師等。對於資料儲存,品友基於多年經驗給出了部分建議:鑑於使用者換機週期為1.5年,因此建議廣告行為資料儲存1.5年;一方標籤資料、分析資料、報表資料永久儲存;建議分配儲存與研發部確認。針對品友資料分析平臺的研發經驗,王曉鵬認為根據資料量,使用者角色設計設計分析平臺很重要;對工具的選擇來說,沒有銀彈;企業還是需要走工具+自我開發的道路。

位元組跳動資料基礎架構工程師李亞坤:Hadoop YARN 在位元組跳動的實踐

位元組跳動公司的今日頭條、抖音短影片、火山小影片、西瓜影片等一系列產品,在最近幾年內資料量一直呈現出爆炸性增長趨勢,資料基礎架構部門在離線計算、流式計算等多個方向上遭遇到了一系列前所未有的挑戰。從0到3.6萬+計算結點的YARN叢集管理,以及在排程最佳化、流式作業支援等多個方面,位元組跳動都經歷了哪些坑呢?

李亞坤錶示,Hadoop生態圈主要分三層:物理層、分散式系統層和使用者層。 其中,在分散式系統層,分散式計算資源由Yarn統一管理並執行了很多計算框架。對於原生Yarn存在的一些穩定性、易用性等方面的問題,位元組跳動在資源排程等多個層面進行了定製化開發,比如Dominant Resource Fairness 延遲排程,Fair Scheduler的動態預留以及Fair Scheduler的多執行緒版本等。未來,位元組跳動的主要工作是平衡叢集間的資源利用並實現更好得節點隔離。

在本屆SACC大會的主線二《大資料平臺架構實踐》上半場,我們瞭解了不同企業在資料分析、資源排程和叢集配置等方面的實踐最佳化。“十年磨一劍,礪得梅花香”,第十屆中國系統架構師大會準備了三天傳統技術大會演講,兩天深度主題培訓,更多精彩議題歡迎訪問大會專題頁面(http://zt.it168.com/topic/sacc2018/)。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31545816/viewspace-2217075/,如需轉載,請註明出處,否則將追究法律責任。

相關文章