對很多技術團隊來說,在搭建智慧資料架構的過程中,或多或少會遇到一些疑惑和挑戰,經過多次實踐後,有些團隊已經破除疑惑,成功探索出一條搭建智慧資料架構之路,那麼他們是如何實現這一技術的呢?在近日的個推技術沙龍成都站,幾位架構大師在現場開啟了資料技術的“腦暴時間”。
諾基亞網路成都研發中心研發經理
劉朋 《資料增長時代的研發管理》
企業在應對資料增長帶來的巨大挑戰時,需在研發和管理方面做好充足準備。
研發方面,提升資料儲存的擴充套件性;管理方面,除了增加對人和裝置的管理外,要努力打造一支具有資料驅動型領導力的團隊,讓團隊中的決策以資料為依據,同時創造出以資料為核心的文化氛圍。
大資料時代,想要成為一名資料驅動型領導(Data-Driver Leader),需要具備三大招式。
第一招:關注研發團隊的經濟效益資料(Take an Economic View)
研發團隊不僅是成本中心,他們也具有創造經濟效益的能力,作為一名資料驅動型領導,在日常工作中要關注相關技術實踐能否為公司帶來經濟利益。
第二招:讓團隊資料視覺化(Transparency)
在一支研發團隊中,部門領導需要將資料視覺化,讓團隊中的每個人都對核心資料有所瞭解,這樣一來,當問題出現時,每個人都有能力去解決。
第三招:基於資料,及時快速反饋(Fast Feedback)
在團隊執行過程中,作為領導者,不僅要制定好相應規劃,同時要不斷分析資料查詢問題,並基於資料以及KPI給成員提供反饋。
雖然資料驅動型領導在推動公司決策方面具有重要作用,但隨著公司人員的擴充,部門牆和區域性優化(Sub-optimization)越來越明顯,此時需要打破部門牆,讓各個部門和團隊都能圍繞一個共同的目標進行協作,以達到效益最大化的目標。
個推大資料架構師
袁凱 《機器學習平臺建設與實踐》
機器學習工作的常規流程:運營者首先要將商業問題轉化為機器學習能夠解決的問題,然後再進行資料收集以及清洗和聚合的工作,接下來開啟資料探索和特徵工程,經過上述步驟,便能得到事物預測所需要的全部因素,此時,運營者可以選用不同的演算法,並將演算法進行訓練,得到相應的應用模型。最後,運營者還需要利用真實的資料進行驗證,確保模型的可行性。
機器學習作為一門多領域交叉學科,是解決許多實際問題的有效工具。個推通過機器學習,構建了獨有的冷、熱、溫標籤,用以分析不同群體的基礎屬性和行為特徵,描繪使用者的精準畫像,最終運用於智慧推送和精準營銷。
想要完成機器學習平臺的建設,需要注意三大要點:
1.只有端到端的平臺建設才會真正產生價值,同時,特徵工程的資料和程式碼沉澱需要共享運營。
2.從成效出發,聚焦痛點,不要盲目跟隨行業,做好系統和培訓的一體化。
3.謹慎引入新技術棧。
為了避免機器學習平臺建設中出現的常見問題,個推的建模平臺會提供相應的IDE以及呈現相應特徵的管理系統,同時還能提供標準化的ID匹配服務和資料抽取服務,減少工程師的重複工作。此外,個推提供的打包部署服務和後續監控服務,也能夠幫助企業保證平臺的順利執行。
聚美優品大資料高階工程師
賀鵬《大資料3.0流計算與智慧決策》
大資料3.0時期,Hadoop第一代、Spark記憶體計算第二代,早期流計算以及人工智慧流計算同時並存。
早期流計算具有強一致性、資料亂序與延遲等五大困難點,Flink的出現,有效解決了這些難題,同時Flink還兼具了可以實時增量計算、SQL支援以及CEP支援等六大優點。
流計算髮展至今,已經具備了CEP這一強大功能,這也是支撐流計算智慧化的關鍵因素所在。現實生活中,很多複雜的場景無法通過顯式規則來進行判斷(傳統程式設計為規則程式設計、指令程式設計以及if else程式設計),比如你無法用if else寫出如何判斷哪一張圖片是樹葉,你無法用有限的規則寫出如何判斷資料流中哪些是人為操作、哪些是機器人刷單,此時需要用機器學習模型來檢測和匹配,同時需要ML和流計算相結合使用。
通常情況下, ML模型主流場景有分類和迴歸兩大場景,他們可以檢查抽象中無狀態 f = fx(x1,x2 ..)無狀態模型(有狀態的模型典型代表rnn),而在SQL語義中 UDF剛好與之對應(無狀態),需要把模型放入流處理系統中,也就是將tensorflow PB model模型註冊為udf,完成上述步驟後,資料流會進入ML檢測階段。
使用流計算相關功能時,需要強大的平臺予以支援,以便在上面實施SQL開發、授權等操作。