3/25數倉面試總結

SunShine789發表於2024-05-22
  1. 資料採集模組 主要採集什麼 業務資料和使用者行為資料 包括 頁面瀏覽記錄,啟動記錄,錯誤記錄,曝光記錄,動作記錄 格式包括頁面日誌和啟動日誌JSON格式?
  2. flume怎麼採集

  3. 第一次見沒有sink的flume

  4. 業務資料怎麼說?sku商品表 平臺表 流水錶 退單表 訂單詳情 優惠券表 省份表 在網上找的資料集

  5. 使用者行為資料怎樣由kafka匯入到hdfs flume最佳化 filechannel最佳化

  6. 業務資料同步才有增量和全量這個概念

    而且這裡的增量同步不是新增了什麼表拿過來,業務資料庫建立時的表幾乎就是全部需要用到的表了,不需要建,將同步的資料建成原表拿過來!

  7. 全量表同步用datax 因為離線方式

    每一張表太麻煩,看有什麼配置工具。

  8. 最後把每天的同步指令碼寫好 寫好指令碼後要修改配置許可權777

    遺憾哪裡冒出來的kafka 不是MySQL資料庫嗎?原來MySQL要將首日表同步到kafka,需要用到Maxwell的boostrap功能 kafka是支援offset的!對於端到端的準確性非常重要!

  9. 建模理論

  10. 維度表設計 主維表和相關維表都是事實表

    維度屬性就是除了主鍵之外的維度欄位 維度屬性可從主維表或者相關維表得到!

  11. 雪花模型和星辰模型

  12. 數倉分層一共有五層 我已經知道了至少四層!

  13. 大多數統計需求都是原子指標、派生指標、衍生指標這套模式,大多數派生指標可以複用,作為公共指標,提供效率

    彙總表DWs

  14. ODS層設計

    將需要繪製的匯出到SQL ADS服務 各種面向主題的報表

相關文章