以智慧資料架構，挖掘增長金礦

個推發表於2019-01-15

原文網址 : https://flycode.co/archives/103745

對很多技術團隊來說，在搭建智慧資料架構的過程中，或多或少會遇到一些疑惑和挑戰，經過多次實踐後，有些團隊已經破除疑惑，成功探索出一條搭建智慧資料架構之路，那麼他們是如何實現這一技術的呢？在近日的個推技術沙龍成都站，幾位架構大師在現場開啟了資料技術的“腦暴時間”。

諾基亞網路成都研發中心研發經理

劉朋《資料增長時代的研發管理》

企業在應對資料增長帶來的巨大挑戰時，需在研發和管理方面做好充足準備。

研發方面，提升資料儲存的擴充套件性；管理方面，除了增加對人和裝置的管理外，要努力打造一支具有資料驅動型領導力的團隊，讓團隊中的決策以資料為依據，同時創造出以資料為核心的文化氛圍。

大資料時代，想要成為一名資料驅動型領導(Data-Driver Leader)，需要具備三大招式。

第一招：關注研發團隊的經濟效益資料（Take an Economic View）

研發團隊不僅是成本中心，他們也具有創造經濟效益的能力，作為一名資料驅動型領導，在日常工作中要關注相關技術實踐能否為公司帶來經濟利益。

第二招：讓團隊資料視覺化(Transparency)

在一支研發團隊中，部門領導需要將資料視覺化，讓團隊中的每個人都對核心資料有所瞭解，這樣一來，當問題出現時，每個人都有能力去解決。

第三招：基於資料，及時快速反饋(Fast Feedback)

在團隊執行過程中，作為領導者，不僅要制定好相應規劃，同時要不斷分析資料查詢問題，並基於資料以及KPI給成員提供反饋。

雖然資料驅動型領導在推動公司決策方面具有重要作用，但隨著公司人員的擴充，部門牆和區域性優化（Sub-optimization）越來越明顯，此時需要打破部門牆，讓各個部門和團隊都能圍繞一個共同的目標進行協作，以達到效益最大化的目標。

個推大資料架構師

袁凱《機器學習平臺建設與實踐》

機器學習工作的常規流程：運營者首先要將商業問題轉化為機器學習能夠解決的問題，然後再進行資料收集以及清洗和聚合的工作，接下來開啟資料探索和特徵工程，經過上述步驟，便能得到事物預測所需要的全部因素，此時，運營者可以選用不同的演算法，並將演算法進行訓練，得到相應的應用模型。最後，運營者還需要利用真實的資料進行驗證，確保模型的可行性。

機器學習作為一門多領域交叉學科，是解決許多實際問題的有效工具。個推通過機器學習，構建了獨有的冷、熱、溫標籤，用以分析不同群體的基礎屬性和行為特徵，描繪使用者的精準畫像，最終運用於智慧推送和精準營銷。

想要完成機器學習平臺的建設，需要注意三大要點：

1.只有端到端的平臺建設才會真正產生價值，同時，特徵工程的資料和程式碼沉澱需要共享運營。

2.從成效出發，聚焦痛點，不要盲目跟隨行業，做好系統和培訓的一體化。

3.謹慎引入新技術棧。

為了避免機器學習平臺建設中出現的常見問題，個推的建模平臺會提供相應的IDE以及呈現相應特徵的管理系統，同時還能提供標準化的ID匹配服務和資料抽取服務，減少工程師的重複工作。此外，個推提供的打包部署服務和後續監控服務，也能夠幫助企業保證平臺的順利執行。

聚美優品大資料高階工程師

賀鵬《大資料3.0流計算與智慧決策》

大資料3.0時期，Hadoop第一代、Spark記憶體計算第二代，早期流計算以及人工智慧流計算同時並存。

早期流計算具有強一致性、資料亂序與延遲等五大困難點，Flink的出現，有效解決了這些難題，同時Flink還兼具了可以實時增量計算、SQL支援以及CEP支援等六大優點。

流計算髮展至今，已經具備了CEP這一強大功能，這也是支撐流計算智慧化的關鍵因素所在。現實生活中，很多複雜的場景無法通過顯式規則來進行判斷(傳統程式設計為規則程式設計、指令程式設計以及if else程式設計)，比如你無法用if else寫出如何判斷哪一張圖片是樹葉，你無法用有限的規則寫出如何判斷資料流中哪些是人為操作、哪些是機器人刷單，此時需要用機器學習模型來檢測和匹配，同時需要ML和流計算相結合使用。

通常情況下， ML模型主流場景有分類和迴歸兩大場景，他們可以檢查抽象中無狀態 f = fx(x1,x2 ..)無狀態模型(有狀態的模型典型代表rnn)，而在SQL語義中 UDF剛好與之對應(無狀態)，需要把模型放入流處理系統中，也就是將tensorflow PB model模型註冊為udf，完成上述步驟後，資料流會進入ML檢測階段。

使用流計算相關功能時，需要強大的平臺予以支援，以便在上面實施SQL開發、授權等操作。

如何利用資料架構帶動企業增長？
2019-01-16
架構
OPPO智慧增長演算法核心架構與應用
2023-11-02
演算法架構
Hadoop大資料分析市場以13.0%的複合年增長率增長
2021-12-22
Hadoop大資料
以資料庫為中心的架構與以領域為中心的架構的區別 - DevSDhami
2020-02-25
資料庫架構dev
架構之:資料流架構
2021-06-18
架構
【虹科乾貨】Lambda資料架構和Kappa資料架構——構建現代資料架構
2023-11-10
架構APP
資料分析與挖掘-挖掘建模
2020-09-30
螞蟻金服資料質量治理架構與實踐
2019-02-23
架構
京東金融打造金融機構“第二增長場景”，以數字化重塑增長
2020-08-18
右滑：挖掘未來智慧手機市場價值金礦的四大策略（附下載）
2021-08-25
按照業務領域畫資料架構圖業務架構資料架構
2024-04-21
架構
資料智慧落地智慧疾控，醫療大資料行業將迎來快速增長期
2021-03-10
大資料行業
【大資料】以航空大資料為例，一窺企業資料架構規劃和治理之道
2018-04-06
大資料架構
架構設計、區塊鏈、人工智慧、大資料
2018-07-03
架構區塊鏈人工智慧大資料
架構思考-業務快速增長時的容量問題
2020-06-16
架構
雲資料庫時代：企業資料架構的雲化智慧重構和變革
2018-11-26
資料庫架構
大資料---（3）金融資料架構
2018-03-22
大資料架構
mplus資料分析：增長模型潛增長模型與增長混合模型再解釋
2022-03-09
模型
大資料架構師
2019-04-05
大資料架構
資料管道架構概述
2024-06-12
架構
ES資料庫架構
2022-06-26
資料庫架構
面向資料的架構
2021-11-21
架構
以Echo為例，從鋰礦廠到資料礦廠的人工智慧產業全景地圖是這樣的！
2018-09-10
人工智慧產業地圖
愛立信：自2011年以來全球移動資料增長了300倍
2021-11-30
以資料驅動增長，火山引擎數智平臺“資料找人”為雙 12 營銷提效
2024-12-05
2021年Q1-2022年Q2北美技術增長風險投資金額及增長率（附原資料表）
2022-07-15
資料管理架構：單體資料架構與分散式資料網格比較 - enyo
2021-08-08
架構分散式
攜程 x TiDB丨應對全球業務海量資料增長，一棧式 HTAP 實現架構革新
2023-03-08
TiDB架構
Java架構-薪水增長多少,新機會才值得考慮?
2018-11-13
Java架構
金航數碼選擇應用 TDengine 時序資料庫，改造現有資料庫架構
2022-12-30
資料庫架構
資料潮，智慧岸：金融“合”以勝
2019-11-26
預計2023年全球IT型別支出金額及增長率（附原資料表）
2022-04-24
型別
用資料驅動運營：構建團隊的資料思維和增長基因
2020-06-19
大資料進入快速發展階段，挖掘“數字寶礦”是關鍵
2019-06-19
大資料
資料架構之我見
2022-02-10
架構
2024年全球主要採礦金屬和礦物品牌價值（附原資料表）
2024-08-01
如何估算Oracle資料庫每日資料增長量
2021-10-08
Oracle資料庫
談談人工智慧和機器學習的資料架構
2023-10-27
人工智慧機器學習架構