大資料面試常見的面試題總結

chenfeng發表於2018-04-13
1、你處理過的最大的資料量?你是如何處理他們的?處理的結果。


2、在處理大資料過程中,如何保證得到期望值?


3、如何讓一個網路爬蟲速度更快、抽取更好的資訊以及更好總結資料從而得到一干淨的資料庫?


4、點選流資料應該是實時處理?為什麼?哪部分應該實時處理?


5、你最喜歡的程式語言是什麼?為什麼?


6、如何把非結構化的資料轉換成結構化的資料?這是否真的有必要做這樣的轉換?把資料存成平面文字檔案是否比存成關聯式資料庫更好?


7、如何判別mapreduce過程有好的負載均衡?什麼是負載均衡?


8、Spark和Hive的區別,以及Spark和Hive的資料傾斜調優問題?


9、Hive和Hbase的區別?


10、MapReduce的思想,以及MapReduce調優問題?


11、你所瞭解的開源網站?


12、有兩個叢集,每個叢集有3個節點,使用hive分析相同的資料,sql語句完全一樣,一個叢集的分析結果比另外一個慢的多,給出造成這種現象的可能原因?


13、Hbase的最佳化?


14、叢集的版本,以及叢集的瓶頸問題?


15、CRM專案,怎麼跟Spark結合?


16、如何建立一個關鍵字分類?


17、海量日誌資料,提取出某日訪問百度次數最多的那個IP?


18、Hadoop和Spark處理資料時,出現記憶體溢位的處理方法?


19、有一個1G大小的一個檔案,裡面每一是一個詞,詞的大小不超過16位元組,記憶體大小限制大小1M,返回頻率最高的50個詞。


20、你是如何處理缺少資料的?你是推薦使用什麼樣的處理技術,或者說你是用什麼樣的技術處理呢?


. . . . .

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/15498/viewspace-2152894/,如需轉載,請註明出處,否則將追究法律責任。

相關文章