2018年--阿里大資料面試題(部分精選)

程式設計師OfHome發表於2018-04-10

1.簡述如何安裝配置apache 的一個開源的hadoop

2.列出hadoop 叢集中的都分別需要啟動哪些程式 它們分別是作用是什麼?

3.簡述mapreduce的執行原理

4.hive中內部外部表的區別

5.mapreduce中的combiner 和partition的區別

6.說說你對yarn 的理解

7.Redis效能優化,單機增加CPU核數是否會提高效能

8.採集資料為什麼選擇kafka

9.專案中遇到什麼難題,有沒有資料丟失,怎麼解決

10.RDD中reduceBykey與groupByKey的區別

11.kafka 重啟是否會導致資料丟失

12.講一講checkpoint

13.datax的架構,為什麼不用sqoop

14.跨叢集資料同步distcp的原理

15.描述mapreduce的過程,中間有幾次寫磁碟

16.ORC、Parquet等列式儲存的優點

17.hive傾斜原因,怎麼解決,mapjoin

18.ArraryBlockingQueue的實現

19.排程系統的實現,開源排程系統Azkaban

20.zookkeeper HA原理

21.大頂堆、小頂堆;堆的建堆過程,調整過程

22.排序演算法

23.二分法以及變種

24.JVM引數調優經驗

PS:

關注微信公眾號“程式設計師OfHome”,傳送“領取資料”可以免費領取視訊資料。

對大資料感興趣的朋友可以加入到我們的程式設計師OfHomeQQ群:610535338 群裡有都是從事或者在學習大資料的朋友,在此我也邀請你進群一起學習,群內沒有廣告,也是禁止打廣告的,大家也可以關注一下我的微信公共號“程式設計師OfHome”下方掃掃可關注。

相關文章