大資料架構師

風靈使發表於2019-04-05

大資料架構師該掌握的技能

主要分為兩塊 硬能力軟實力

硬能力

  • 一:平臺建設
    • 1.行業平臺
    • 2.技術選型
    • 3.平臺架構
      • 1)HDP Core(平臺核心也是Hadoop core)

        • HDFS(儲存)
        • MapReduce(批處理)
        • Yarn(基礎資源排程)
          • 負責叢集資源的統一管理和排程
          • 單節點資源管理和使用
          • 應用程式管理
          • 對任務執行環境的抽象
          • 支援執行長應用程式和短應用程式
          • 支援docker fpga
          • 期待更細粒度的資源控制
          • 對比Mesos
        • Oozie(任務排程編排)
          • 平臺排程的基礎保障
          • hadoop 各種任務的使用與排程
          • 對比 Azkaban Airflow
        • Slider(排程支援 新版已經整合yarn)
      • 2)Enterpise Data Warehouse(企業資料倉儲)

        • Pig(基礎指令碼服務)
          • 用類sql語言保證mr執行順暢
          • pig latin 的執行環境
        • Hive(資料倉儲儲存)
          • 基礎資料倉儲(ods gdm dw app dim)
          • 基礎ETL的執行例項
          • OLAP的資料儲存(kylin)
          • 各種資料的hive外表用於查詢
          • 對比impala
        • Druid(adhoc方案 實時多維查詢和分析)
          • 已處理數十億事件和TB級資料
          • 實時查詢分析 高可用、高容錯、高效能
          • 互動式聚合和快速探究大量資料
          • 為OLAP工作流的探索性分析而構建,支援各種過濾、聚合和查詢
          • 對比 drill mdrill 等
        • Tez(簡化增強hive)
        • Sqoop(資料匯入匯出工具)
      • 3)Data sclence(資料科學)

        • Spark(記憶體通用平行計算)
          • 推薦相關
          • 資料清洗
          • 特徵抽取
          • 預測相關
          • 對比 flink storm
        • flink
        • Spark sql(結構化資料處理)
        • Spark streaming(spark流式處理)
        • Zeppelin(介面分析挖掘工具)
          • 基於R和python的單機介面使用工具(分析挖掘)
          • 基於spark kafka 的介面操作工具
          • 基於預測資料的使用與展現
          • 支援pandas numpy
          • 支援R
          • 支援hive hbase spark sparksql sparkstreaming
          • 支援keras matplotlib pysql
      • 4)Operational data store(操作KV儲存)

        • Hbase(kv資料儲存)
        • Phoenix(hbase 類sql查詢)
      • 5)Securlty governance(安全治理)

        • Knox(鑑權工具)
          • 資料的許可權鑑權通道
          • 平臺跟外部的出入口
        • Ranger(許可權管理工具)
          • 架構下各元件的許可權管理
          • 記錄操作日誌到solr
        • Atlas(後設資料溯源與資料治理工具)
          • 大資料平臺下各種操作的後設資料記錄
          • 資料打標籤(對於維度 指標 ETL等)
          • 可查詢hive storm spark sqoop oozie nifi 後設資料,可自定義實現自己的需要檢視和維護的工具
          • 資料流轉流程的影象化展現
          • 後設資料操作記錄與各種資訊查詢
      • 6)Stream procressing(流式計算)

        • Storm(實時資料處理分析)
        • Kafka(分散式釋出訂閱訊息系統)
        • Streaming Analytics Manager (流式資料處理介面工具)
          • 拖放視覺化設計,開發,部署和管理流式資料分析應用程式
          • 進行事件關聯,上下文銜接,複雜模式匹配,分析聚合以及建立警報/通知
        • MiNiFi(邊緣資料處理)
          • 資料產生的源頭收集和處理資料
          • 通過實現邊緣裝置智慧(edge intelligence)來調整資料流的雙向通訊
          • 可以資料溯源(Data Provenance)
          • 可以集中管理和下發Agents
          • java agent
          • c++ agent
      • 7)Operations(平臺運維工具)

        • Ambari(大資料平臺管理工具)
        • Ambari Metrics(監控平臺各類服務及主機的執行情況)
        • Ambari Infra
        • Zookeeper(基礎分散式保證工具)
        • Solr(搜尋應用 操作日誌儲存)
      • 8)Data operation platform(資料操作平臺)

        • NiFi(資料 ETL 資料流處理)
          • 日誌清洗 業務資料入庫
          • 基礎資料(mysql binlog業務庫 )ETL
          • 部分外部資料
          • 自定義資料接入方式
          • 自定義資料流程處理
          • 資料輸出出口
        • NiFi Registry(NiFi版本管理工具)
          • NIFI的版本記錄回溯
          • NIFI Schema Registry 來統一檔案定義(類配置中心)
          • 配合SwaggerAPI資料定義
        • Hue(大資料互動介面平臺)
      • 9)Data visualization(資料視覺化工具)

        • Superset(資料分析介面工具)
        • FineBI(BI介面分析工具)
          • 報表資料視覺化
          • 部分OLAP分析
          • Fine Index
          • FIne Direct
          • 現場資料實時展示
        • (Cboard) 主用於資料匯出
        • Metabase
          • 直接用來對接運營產品的資料互動工具
          • 支援問題模式,支援對資料進行標記
        • 對比 Saiku Tableau Qlikview
        • 自主研發
          • Echarts HighCharts
          • inMap
          • datav
      • 10)OnlineAnalytical processing(OLAP解決方案 adhoc)

        • Kylin(MOLAP方案)

          • 維度間交叉分析
          • 構建過程基於hive叢集不需要單獨搭建
          • 資料儲存於hbase叢集,主要消耗磁碟
        • HAWQ(SQL on Hadoop)

          • 符合ANSI SQL規範並且支援SQL 92、99、2003 OLAP
          • 包含關聯子查詢、視窗函式、彙總與資料庫、廣泛的標量函式與聚合函式的功能
          • TPC-DS針對具有各種操作要求和複雜性的查詢定義了99個模板(例如,點對點、報告、迭代、OLAP、資料探勘等)
          • HAWQ使用Apache Ambari作為管理和配置的基礎
        • GreenPlum(MPP架構升級版PostgreSQL) 學習資料

          • 基於PostgreSQL
          • 採用兩階段提交和全域性事務管理機制來保證叢集上分散式事務的一致性
          • 建立在例項級別上的平行計算,可在一次SQL請求中利用到每個節點上的多個CPU CORE的計算能力
          • 解決大問題而設計的平行計算技術,而不是大量的小問題的高併發請求
        • PostgreSQL (單機ORDBMS) 學習資料

          • 天生就是為擴充套件而生的,可以在PG中用Python、C、Perl、TCL、PLSQL等來擴充套件
          • 強大 SQL 支援能力和非常豐富的統計函式和統計語法支援
          • hash join、merge join、nestloop join的支援方面做的較好
        • Presto(MPP-SQL互動式查詢引擎)

          • 多資料來源(Hive,Hbase,RDBMS)
          • 支援標準SQL 不支援UDF
          • 對錶的連線以及 group by操作有比較嚴格的大小限制
          • 對叢集結點的記憶體和CPU消耗較大
        • Elasticsearch

          • 橫向可擴充套件,高可用 分片機制
          • 單叢集,索引快取在記憶體中,單節點易造成記憶體溢位
          • 不支援複雜sql,無法實現關聯統計分析
        • HashData(SQL on Cloud)

          • 託管於雲平臺,使用者不再需要為基礎設施投資,不再需要調優運維,僅為您使用的計算資源買單
          • 分散式架構,根據負載快速擴充計算能力,實現高效能運算,滿足使用者互動式查詢的需求。
          • 雲資料倉儲,針對雲平臺訂製設計。利用雲端計算的優勢,實現資料倉儲的高可用、快速恢復、彈性擴容
        • ClickHouse 學習資料

          • 實時資料更新
          • 關係型、支援SQL
          • 可以不依賴hadoop平臺
          • 分散式平行計算,把單機效能壓榨到極限
          • 列式儲存資料庫,資料壓縮
        1. Graph database(圖資料庫) 對比圖
        • Janus Graph(圖資料庫引擎)
          • 圖的序列化, 圖的資料模型和高效的查詢
          • 依賴hadoop來做圖的統計和批量圖操作
          • 為資料儲存,索引和客戶端訪問實現了粗粒度的模組介面
          • 模組架構能和和許多儲存,索引,客戶端技術整合. 可以簡便的擴充套件新的功能
        • Dgraph(事務性的分散式圖形資料庫)
          • 解決企業在資料庫增長超過單個伺服器時面臨的一些問題而構建
          • 可擴充套件的,分散式的,低延遲的圖資料庫
          • 超過 TB 的結構資料裡,為使用者提供足夠低延遲的實時查詢
        • Neo4j(NoSQL圖資料庫)
        • ArangoDB(NoSQL資料庫)
          • 原生多模型資料庫
          • 可以將邏輯功能加入V8的 js framework Foxx™中 並可以完全訪問所有功能
          • 可擴充套件性,JOINS, 複雜事務處理
    • 4.資源申請
      • 1)基準測試
      • 2)資源預估(基於業務存量與增量)
      • 3)理解各元件的CPU IO 記憶體 硬碟 頻寬的特性
      • 4)硬體知識(RAID 儲存加速 儲存介面等 )
      • 5)瓶頸資源預判
      • 6)分階段保障
    • 5.日常維護
      • 1)bigdata devops
      • 2)許可權授權
      • 3)瓶頸判斷
      • 4)繼續需求的二次開發
      • 5)元件版本關注與升級
      • 6)各種疑難雜症修復
      • 7)環境維護(正式 測試)
    • 6.技術調研
      • 1)機器學習
      • 2)IOT相關
      • 3)邊緣計算
    • 7.雲平臺化建設
  • 二:資料獲取
    • 1.公司內結構化資料
      • 1)增量
      • 2)全量
      • 3)拉鍊
      • 4)binlog
      • 5)介面
      • 6)kafka需求對接
  • 2.小程式
    • 1)支付寶小程式
    • 2)頭條系小程式
    • 3)微信小程式
  • 3.公司內非結構化資料
    • 1)日誌
      • 介面
      • 內部埋點
        • 後端埋點方案
        • 無埋點方案
        • url規約系統
        • 使用者級別
        • 頁面級別
        • CMS塊級別
        • 事件級別
      • 第三方埋點
        • GA
        • 百度
        • 友盟
        • 其他
      • 搜尋
    • 2)視訊
    • 3)影象
    • 4)excel
    • 5)文件
  • 4.外部資料(非公司IT支撐)
  • 5.外部資料
  • 三:資料價值
    • 1.資料清洗
      • 日誌資料清洗(UDF SparkStreaming )
      • 業務資料清洗
      • 維度資料抽取
      • NLP語義化
      • 圖片識別等
    • 2.資料倉儲
      • 1)分層
        • Operational Data Store(ODS) 原始運算元據
        • General Data Mart(GDM)清洗後通用資料
        • Data WareHouse (DW)資料集市
        • Dimension Data(DIM)維度資料
      • 2)規範
        • 許可權規範
        • ETL規範
        • 排程規範
      • 3)ETL
      • 4)後設資料(Atlas檢視和標記)
        • 業務後設資料
        • ETL後設資料
        • 資料後設資料
    • 3.統計報表
      • 分類
      • 維度
      • 指標
      • 資料視覺化
    • 4.商業智慧
      • 關鍵指標與轉化
        • 博弈分析法(找到博弈方,找到博弈方的衝突與矛盾)
        • 企業價值評估法(找到利益保持或者增長的關鍵點或者業務流程量化KPI)
        • 行業參考(標準行業的指標體系)
        • 保證少而精 結果導向 可衡量 一致性
      • 影響業務決策
      • 影響運營決策
      • 影響老闆決策
    • 5.資料包告
      • 抓重點業務或關鍵路徑
      • 體系化敘述
      • 重點資料解釋
      • 編寫參考 玩轉keynote
    • 6.業務賦能
      • 使用者畫像
      • 推薦
      • 廣告
      • 資料預警
      • 資料預測
      • 資料查詢
      • 對運營支援的資料工具
      • 對業務銷售支援的資料工具
    • 7.資料產品
      • 2B
        • 行業標準與資料共享
        • 垂直行業指數專案
        • B端客戶資料價值展示
      • 2C
        • 結合產品規劃
        • 推薦
        • 搜尋
        • 風控
        • 輿情監測
        • 使用者畫像
        • 反作弊
    • 8.場景探索
  • 四:資料安全
    • 1.企業資料分級
      • 普通
      • 敏感
      • 機密
      • 絕密
    • 2.資料隱私保護
      • Personal Identifiable Information(PII級別)
      • 使用者唯一標識(因公司而異)
      • 核心業務資料訂單 優惠券 等(掩碼)
    • 3.平臺許可權控制
      • 資料匯出許可權控制
      • 賬號跟蹤與金鑰更換
      • 資料使用申請
    • 4.資料流程規範
      • 需求對接規範
      • 資料訂正規範
      • 業務資料變更修正
  • 五:質量保障
    • 1.平臺與資源保障
    • 2.資料質量
    • 3.統一口徑
    • 4.故障跟進

軟實力

  • 一:個人素質
    • 1.體系化建設
      • 1)快速瞭解一個體系
        • 渠道
          • 專業圖書
          • 技術官網
          • github
          • processon 裡的推薦功能
          • 技術部落格
          • 知乎
          • 體系報告網站(參考 資料獲取-外部資料-資料包告)
          • 各種行業平臺網站
          • 谷歌百度
          • 找朋友聊 加微信QQ群
        • 記錄整理
          • 找個工具記錄 散漫的瘋狂閱讀與吸取
          • 最好用表格來劃分橫向維度和縱向維度
        • 消除雜音
          • 刨除過程中一些過時的資料或者概念
          • 儘量找原版的設計與理解
      • 2)快速形成自己的理解
        • 聚合
        • 分類
        • 排序
        • 深入
      • 3)系統計劃
      • 4)修正策略
      • 5)投資視角看公司
        • 商業模式
          • 完整的產品、服務和資訊流體系,不完全決定著盈利模式但是衡量盈利模式的基礎
          • 簡單易懂一句話說明白的模式就是好模式
          • 在產業上下游關係所處的位置
          • 定價權在哪裡
          • 企業和客戶關係的好壞
        • 盈利模式
          • 探求企業利潤來源、生產過程以及產出,對企業經營要素進行價值識別和管理 關注持續力
        • 團隊
          • 關注公司的團隊架構,工作任務如何進行分工、分組和協調合作 。關注CXO
            • 專一性
            • 創新性
            • 管理者優勢
        • 使用者來源
          • 關注在特定的公司下他們是如何獲客的,獲客的效果與方法是否可以持續健康的保持優勢
        • 現金流
          • 公司對於內部價值的挖掘和在商業上的資金變現能力
        • 成本結構
          • 成本結構
          • 決定因素
          • 成本產業優化
          • 變現能力
        • 路徑依賴
          • 公司內部對主營業務的依賴性,對於新業務擴充的阻礙。在快速調整方向時能動性的高低
        • 燒錢速度
        • 競爭對手
          • 賽道內競爭對手的強弱與個數,競爭對手的資方背景。競爭對手對紅海的競爭性與藍海的開拓性
        • (賽道)行業特性
          • 垂直行業內的一些特殊關注點和可能發現的價值挖掘點,也是可能構建護城河的點
        • 價值流失
          • 價值守護的能力,包括資產資料 使用者,針對於流失的方法策略是否有意識和具體的動作
        • 護城河
          • 抵禦競爭者的保護措施
            • 財務效率
            • 邊際成本
            • 回報率
            • 品牌效應
        • 天花板
          • 公司所在的行業是否已經進入飽和狀態,是否供過於求
            • 關注行業或者需求拐點
            • 關注小行業的大公司
            • 關注新舊勢力平衡關係
            • 關注面對天花板公司採取的策略
    • 2.業務破局
      • 1)瞭解業務
        • 老闆 高管 經理
          • 投其所好
            • 多渠道的瞭解老闆畫像
            • 試探資料價值的關注度
          • 換位思考
            • 從他們的角度去考慮他們遇到的困難,不解和所做的決定
            • 不要被他們的思維固化(在其位謀其政)影響你對於資料價值的思考
          • 全面的體系 重要的分級
            • 全面的體系化建設(基於對行業 業務 資料 的寬泛認知)
            • 永遠要記住摸清主線
            • 按照重要程度(看勢)做事情的分級
          • 觀察對方的底線(長期)
        • 技術 產品 運營
          • 技術體系初步印象
            • 前端(ios android pc tv) 涉及到埋點日誌事情
            • 後端(微服務 鏈路 資料庫) 涉及到業務資料入庫和日誌收集
          • 掌握全域性(區域性)資料庫
            • 先全面後區域性的感覺下資料庫設計(如果有ER圖提供最好)
            • 感覺下量級與增速
          • 深入瞭解產品的規劃
            • 找到契合點 不要越界
            • 資料價值為主 外層的展現為輔
            • 產品方向的資料價值多數來自C端 所以 推薦 廣告 使用者畫像等為主 不同的行業考慮下特性應用(O2O IOT 新零售 AI的落地應用)
          • 拿出誠意才會得到配合
            • 站在開發者角度去儘量減輕他們的負擔
            • 日誌與埋點的配合
            • 業務資料入庫配合
            • 底層運維支援配合
            • 技術層面的分享帶給別人更多理解相關技術的機會
          • 是否需要資料產品經理
            • 涉及到產品規劃和業務賦能的最好有資料產品對接
            • 關於資料包表分析的最好讓資料分析人員進入對接一線
        • 銷售 業務 財務
          • 良好的溝通從興趣開始
          • 資料價值來源於解決B端面臨問題
            • 是否能提供有價值的資料讓業務跑得更快
            • 能否提供銷售更直接的客戶服務資料
            • 財務的事情佛系對待
          • 合適的機會跟他們一起開會,反覆強調的內容裡面就有重點和痛點
          • 多花時間研究他們的工作流程
            • 流程最能體現價值(優化 提速 轉化 效率)
            • 接觸工作流程中可以更深刻的理解業務
          • 關鍵指標一定會有所提及(不懂找資料學習再溝通) 繞不過的錢
            • 記錄關鍵指標 自己先琢磨在找懂的人溝通
            • 遇到不分享的可以先想辦法解決他的一些問題,無論大小,展現誠意。記住自己的目標
      • 2)分析痛點
        • 將痛點歸類(部門 角色 資料來源 資料價值)
        • 歸類後痛點間的關聯關係找主線
        • 能解決的痛點才是痛點
        • 縮小範圍解決頭部需求反手解決次類需求
      • 3)專注行動
        • 象限法(重要緊急四象限)
          • 優先處理 重要且緊急 緊急不重要的
          • 階段性的處理重要不緊急的(這種事情要記錄在本本上)
        • 行動前的影響與價值預估
          • 可能對其他部門或人造成的工作加重減輕與正負面影響
          • 行動能得到的可能價值(對需求方 相關人 團隊 自己)
        • 可拆解的任務才能行動
          • 行動計劃保證在一個可控範圍內(人員 時間 資源 )
          • 任務的串並行嘗試
          • 人員維度的安排
          • 時間維度的安排
        • 行動中的修正與反饋
          • 尋找一個反饋物件(最好是需求方)
          • 修正來源於對結果的不可控(保證損失最小)
        • 拿到結果一定要說話(不要當啞巴 付出得到回報天經地義)
          • 打算說給誰聽
          • 準備好PPT(參見玩轉keynote)
          • 時間地點
    • 3.資料解讀
      • 考慮受眾
        • 想要說給誰聽是重中之重
        • 瞭解對方的工作特性用類比方式的去闡述資料
      • 實事求是 輕易不下結論
        • 全域性意識
        • 區域性業務專研分析思維
        • 小心求證,在給出資料前多做檢驗
      • 會看資料
        • 維度-指標-特徵-缺失-差值-聚合-分類-排序
        • 比率-中數-眾數-方差-維度相關性
        • 多維度的去思考和驗證
        • 尋找資料點(點) - 尋找主資料(線) - 串聯資料的順序關係(面)
    • 4.工具利用
    • 5.清醒覆盤
      • 1)覆盤前的思考
      • 2)何時覆盤
      • 3)避坑總結
    • 6.玩轉keynote
      • 1)確定主題與講述思路
        • 解決痛點模式
        • 突出主題模式
        • 流程講解模式
        • 技術分享模式
        • 融資招商模式
        • 資料包告模式
      • 2)講述靠說不靠堆疊
        • 言簡意賅
        • 歸納總結
      • 3)利用模板來快速製作和輔助思路
      • 4)基礎色調選取與排版建議
        • 色調選擇
          • 運用模板的特殊元素來裝扮自己的文案
          • 多用過度色 原則上整體別超過5個
          • 顏色可以用吸管 從淺入深或由深入淺波動選擇
          • 黑白灰為常用過度配色
          • 分清極暖色 極冷色 暖色 冷色 微暖 微冷
          • 色彩的對比 平衡 混合 多練習
        • 排版建議
          • 建議用“細黑”的字型,比如冬青黑體,華文雅黑,微軟雅黑light等
          • 節奏感:尺寸大小,上下位移,旋轉,間距,就是不能讓文字之間穩當地排在一起
          • 巧用各種圖形 可以更形象化的讓人理解
          • 大綱最好列在每頁的麵包屑上
        • 巧用動畫
    • 7.行業關注
  • 二:團隊管理
    • 1.遇見對的人
    • 2.人盡其才
      • 組團隊
      • 差異化
      • 重培養
    • 3.上通下達
    • 4.拒絕沉溺(不要給魚)
    • 5.老司機別翻車
      • 容忍與控制
      • 不要觸碰底線
      • 沒有什麼是燒烤不能解決的 如果有那就兩頓
  • 三:技術能力
    • 1.程式設計
    • 2.演算法
    • 3.資料倉儲
    • 4.工程
  • 四:人生之路
    • 1.平衡之道
        1. 規劃VS變動
        1. 領導VS下屬
        1. 個人VS團隊
        1. 資源VS價值
        1. 家庭VS工作
    • 2.破除心魔
      • 1)以結果導向
        • 理論上個人感受會是結果導向的障礙
        • 結果是個大家相對一致的預期結果
      • 2)接受一家公司代表要融入一種文化
        • 是否喜歡是個很重要的分水嶺
        • 無論什麼企業文化都會以結果為導向
        • 綜合評定自己的容忍度
      • 3)敲碎or劃清邊界
        • 阻礙目標的大多都是邊界內自己要做或者推動的
      • 4)多維度的看待事情
        • 不要再不同緯度觀點下討論事情,這樣容易產生無謂的爭執
        • 當一種角度理解不了某些人或事的時候那就切換下角度
        • 對一個事情或者一個人的評判一定不要單純的一個角度下結論
        • 同樣的維度之間切換自如有助於你討喜
      • 5)信任之路且行且珍惜
      • 6)道德淪陷還是底線失守
        • 改變自己,做自己認為噁心的事情是不是就是道德淪陷
        • 底線是一個恆久不變的還是一個根據自己的發展階段 家人 事業 朋友動態調整的
    • 3.推薦書籍
      • 1)技術類(不包含理論與技術框架)
        • 《數學之美》
        • 《資料倉儲工具箱:維度建模的完全指南》
        • 《美團機器學習實踐》
        • 《資料探勘與資料化運營實戰 思路、方法、技巧與應用》
      • 2)業務類
        • 《無印良品的改革》
        • 《增長黑客》
        • 《智聯網》
        • 《浪潮之巔》
        • 《京東平臺化資料運營》
      • 3)管理與心理學
        • 《原則》
        • 《烏合之眾》
        • 《說謊》
        • 《卓有成效的管理者》
        • 《九型人格》
        • 《影響力》

相關文章