面試疑難問題

SunShine789發表於2024-05-22
  1. 為什麼不直接把CSV檔案上傳到hdfs而要用flume採集
    1.   動態分割槽 提取其中的時間戳
    2. 斷點續傳 實時監聽不用手動續傳
    3. 要有攔截器 配置
    4. 事務傳輸時
    5. 更多控制能力 積攢到多少批flushing一次
    6. 忽略哪種型別的不上傳 檔案太多了一個個手動上傳費時費力且容易出錯
  2. 我一直糾結在AV阿羅通訊是幹什麼的,和我的場景搭配不,是做多個專案不同叢集的日誌收集

  3. kafka具體資料量

  4. 頁目錄 索引下推 reward

    頁組織成雙葉連結串列如果資料量非常大就不是順序IO,所以有了區1MB

  5. kafka精確一次 擴容broker分割槽 下游的消費者

  6. 程序切換 要交換的資訊儲存在pcb中

  7. kafka再平衡 粘性策略

    consumer消費者組中也是有leader的,有協調器選出 協調器把要消費的topic情況發給leader,leader制定消費方案 協調器下發消費方案

    手動提交 漏消費 非同步同步兩種方式

  8. flink

    物理分割槽是並行度的改變 打散shuffle 衝縮放 輪訓

  9. Linux核心頁面分配演算法 夥伴演算法

  10. 對mapjoin和bucket map join SMBjoin的理解出現了問題

  11. 應對資料傾斜

    第一個是map端聚合 將傾斜的鍵聚合在一起,一般都能解決

  12. 為什麼要用Maxwell收集這些資訊

  13. Maxwell工作詳解

  14. datax有模板

    flume也可以配置檢查點檔案

  15. 維度建模

  16. 刪除 QPS

  17. MapReduce

  18. DataNode

相關文章