1、談談Hadoop序列化和反序列化及自定義bean物件實現序列化?
1)序列化和反序列化
(1)序列化就是把記憶體中的物件,轉換成位元組序列(或其他資料傳輸協議)以便於儲存(持久化)和網路傳輸。
(2)反序列化就是將收到位元組序列(或其他資料傳輸協議)或者是硬碟的持久化資料,轉換成記憶體中的物件。
(3)Java的序列化是一個重量級序列化框架(Serializable),一個物件被序列化後,會附帶很多額外的資訊(各種校驗資訊,header,繼承體系等),不便於在網路中高效傳輸。所以,hadoop自己開發了一套序列化機制(Writable),精簡、高效。
2)自定義bean物件要想序列化傳輸步驟及注意事項:
(1)必須實現Writable介面
(2)反序列化時,需要反射呼叫空參建構函式,所以必須有空參構造
(3)重寫序列化方法
(4)重寫反序列化方法
(5)注意反序列化的順序和序列化的順序完全一致
(6)要想把結果顯示在檔案中,需要重寫toString(),且用"\t"分開,方便後續用
(7)如果需要將自定義的bean放在key中傳輸,則還需要實現comparable介面,因為mapreduce框中的shuffle過程一定會對key進行排序
2、FileInputFormat切片機制(☆☆☆☆☆)
job提交流程原始碼詳解
waitForCompletion()
submit();
// 1、建立連線
connect();
// 1)建立提交job的代理
new Cluster(getConfiguration());
// (1)判斷是本地yarn還是遠端
initialize(jobTrackAddr, conf);
// 2、提交job
submitter.submitJobInternal(Job.this, cluster)
// 1)建立給叢集提交資料的Stag路徑
Path jobStagingArea = JobSubmissionFiles.getStagingDir(cluster, conf);
// 2)獲取jobid ,並建立job路徑
JobID jobId = submitClient.getNewJobID();
// 3)拷貝jar包到叢集
copyAndConfigureFiles(job, submitJobDir);
rUploader.uploadFiles(job, jobSubmitDir);
// 4)計算切片,生成切片規劃檔案
writeSplits(job, submitJobDir);
maps = writeNewSplits(job, jobSubmitDir);
input.getSplits(job);
// 5)向Stag路徑寫xml配置檔案
writeConf(conf, submitJobFile);
conf.writeXml(out);
// 6)提交job,返回提交狀態
status = submitClient.submitJob(jobId, submitJobDir.toString(), job.getCredentials());
3、在一個執行的Hadoop 任務中,什麼是InputSplit?(☆☆☆☆☆)
FileInputFormat原始碼解析(input.getSplits(job))
(1)找到你資料儲存的目錄。
(2)開始遍歷處理(規劃切片)目錄下的每一個檔案。
(3)遍歷第一個檔案ss.txt。
a)獲取檔案大小fs.sizeOf(ss.txt);。
b)計算切片大小computeSliteSize(Math.max(minSize,Math.min(maxSize,blocksize)))=blocksize=128M。
c)預設情況下,切片大小=blocksize。
d)開始切,形成第1個切片:ss.txt—0:128M 第2個切片ss.txt—128:256M 第3個切片ss.txt—256M:300M(每次切片時,都要判斷切完剩下的部分是否大於塊的1.1倍,不大於1.1倍就劃分一塊切片)。
e)將切片資訊寫到一個切片規劃檔案中。
f)整個切片的核心過程在getSplit()方法中完成。
g)資料切片只是在邏輯上對輸入資料進行分片,並不會再磁碟上將其切分成分片進行儲存。InputSplit只記錄了分片的後設資料資訊,比如起始位置、長度以及所在的節點列表等。
h)注意:block是HDFS上物理上儲存的儲存的資料,切片是對資料邏輯上的劃分。
(4)提交切片規劃檔案到yarn上,yarn上的MrAppMaster就可以根據切片規劃檔案計算開啟maptask個數。
4、如何判定一個job的map和reduce的數量?
1)map數量
splitSize=max{minSize,min{maxSize,blockSize}}
map數量由處理的資料分成的block數量決定default_num = total_size / split_size;
2)reduce數量
reduce的數量job.setNumReduceTasks(x);x 為reduce的數量。不設定的話預設為 1。
5、 Maptask的個數由什麼決定?
一個job的map階段MapTask並行度(個數),由客戶端提交job時的切片個數決定。
6、MapTask和ReduceTask工作機制(☆☆☆☆☆)(也可回答MapReduce工作原理)
MapTask工作機制
(1)Read階段:Map Task通過使用者編寫的RecordReader,從輸入InputSplit中解析出一個個key/value。
(2)Map階段:該節點主要是將解析出的key/value交給使用者編寫map()函式處理,併產生一系列新的key/value。
(3)Collect收集階段:在使用者編寫map()函式中,當資料處理完成後,一般會呼叫OutputCollector.collect()輸出結果。在該函式內部,它會將生成的key/value分割槽(呼叫Partitioner),並寫入一個環形記憶體緩衝區中。
(4)Spill階段:即“溢寫”,當環形緩衝區滿後,MapReduce會將資料寫到本地磁碟上,生成一個臨時檔案。需要注意的是,將資料寫入本地磁碟之前,先要對資料進行一次本地排序,並在必要時對資料進行合併、壓縮等操作。
(5)Combine階段:當所有資料處理完成後,MapTask對所有臨時檔案進行一次合併,以確保最終只會生成一個資料檔案。
ReduceTask工作機制
(1)Copy階段:ReduceTask從各個MapTask上遠端拷貝一片資料,並針對某一片資料,如果其大小超過一定閾值,則寫到磁碟上,否則直接放到記憶體中。
(2)Merge階段:在遠端拷貝資料的同時,ReduceTask啟動了兩個後臺執行緒對記憶體和磁碟上的檔案進行合併,以防止記憶體使用過多或磁碟上檔案過多。
(3)Sort階段:按照MapReduce語義,使用者編寫reduce()函式輸入資料是按key進行聚集的一組資料。為了將key相同的資料聚在一起,Hadoop採用了基於排序的策略。 由於各個MapTask已經實現對自己的處理結果進行了區域性排序,因此,ReduceTask只需對所有資料進行一次歸併排序即可。
(4)Reduce階段:reduce()函式將計算結果寫到HDFS上。
7、描述mapReduce有幾種排序及排序發生的階段(☆☆☆☆☆)
1)排序的分類:
(1)部分排序:
MapReduce根據輸入記錄的鍵對資料集排序。保證輸出的每個檔案內部排序。
(2)全排序:
如何用Hadoop產生一個全域性排序的檔案?最簡單的方法是使用一個分割槽。但該方法在處理大型檔案時效率極低,因為一臺機器必須處理所有輸出檔案,從而完全喪失了MapReduce所提供的並行架構。
替代方案:首先建立一系列排好序的檔案;其次,串聯這些檔案;最後,生成一個全域性排序的檔案。主要思路是使用一個分割槽來描述輸出的全域性排序。例如:可以為待分析檔案建立3個分割槽,在第一分割槽中,記錄的單詞首字母a-g,第二分割槽記錄單詞首字母h-n, 第三分割槽記錄單詞首字母o-z。
(3)輔助排序:(GroupingComparator分組)
Mapreduce框架在記錄到達reducer之前按鍵對記錄排序,但鍵所對應的值並沒有被排序。甚至在不同的執行輪次中,這些值的排序也不固定,因為它們來自不同的map任務且這些map任務在不同輪次中完成時間各不相同。一般來說,大多數MapReduce程式會避免讓reduce函式依賴於值的排序。但是,有時也需要通過特定的方法對鍵進行排序和分組等以實現對值的排序。
(4)二次排序:
在自定義排序過程中,如果compareTo中的判斷條件為兩個即為二次排序。
2)自定義排序WritableComparable
bean物件實現WritableComparable介面重寫compareTo方法,就可以實現排序
@Override
public int compareTo(FlowBean o) {
// 倒序排列,從大到小
return this.sumFlow > o.getSumFlow() ? -1 : 1;
}
3)排序發生的階段:
(1)一個是在map side發生在spill後partition前。
(2)一個是在reduce side發生在copy後 reduce前。
8、描述mapReduce中shuffle階段的工作流程,如何優化shuffle階段(☆☆☆☆☆)
分割槽,排序,溢寫,拷貝到對應reduce機器上,增加combiner,壓縮溢寫的檔案。
9、描述mapReduce中combiner的作用是什麼,一般使用情景,哪些情況不需要,及和reduce的區別?
1)Combiner的意義就是對每一個maptask的輸出進行區域性彙總,以減小網路傳輸量。
2)Combiner能夠應用的前提是不能影響最終的業務邏輯,而且,Combiner的輸出kv應該跟reducer的輸入kv型別要對應起來。
3)Combiner和reducer的區別在於執行的位置。
Combiner是在每一個maptask所在的節點執行;
Reducer是接收全域性所有Mapper的輸出結果。
10、如果沒有定義partitioner,那資料在被送達reducer前是如何被分割槽的?
如果沒有自定義的 partitioning,則預設的 partition 演算法,即根據每一條資料的 key 的 hashcode 值摸運算(%)reduce 的數量,得到的數字就是“分割槽號“。
11、MapReduce 出現單點負載多大,怎麼負載平衡? (☆☆☆☆☆)
通過Partitioner實現
12、MapReduce 怎麼實現 TopN? (☆☆☆☆☆)
可以自定義groupingcomparator,對結果進行最大值排序,然後再reduce輸出時,控制只輸出前n個數。就達到了topn輸出的目的。
13、Hadoop的快取機制(Distributedcache)(☆☆☆☆☆)
分散式快取一個最重要的應用就是在進行join操作的時候,如果一個表很大,另一個表很小,我們就可以將這個小表進行廣播處理,即每個計算節點上都存一份,然後進行map端的連線操作,經過我的實驗驗證,這種情況下處理效率大大高於一般的reduce端join,廣播處理就運用到了分散式快取的技術。
DistributedCache將拷貝快取的檔案到Slave節點在任何Job在節點上執行之前,檔案在每個Job中只會被拷貝一次,快取的歸檔檔案會被在Slave節點中解壓縮。將本地檔案複製到HDFS中去,接著Client會通過addCacheFile() 和addCacheArchive()方法告訴DistributedCache在HDFS中的位置。當檔案存放到文地時,JobClient同樣獲得DistributedCache來建立符號連結,其形式為檔案的URI加fragment標識。當使用者需要獲得快取中所有有效檔案的列表時,JobConf 的方法 getLocalCacheFiles() 和getLocalArchives()都返回一個指向本地檔案路徑物件陣列。
14、如何使用mapReduce實現兩個表的join?(☆☆☆☆☆)
1)reduce side join : 在map階段,map函式同時讀取兩個檔案File1和File2,為了區分兩種來源的key/value資料對,對每條資料打一個標籤(tag),比如:tag=0 表示來自檔案File1,tag=2 表示來自檔案File2。
2)map side join : Map side join 是針對以下場景進行的優化:兩個待連線表中,有一個表非常大,而另一個表非常小,以至於小表可以直接存放到記憶體中。這樣,我們可以將小表複製多份,讓每個map task 記憶體中存在一份(比如存放到hash table 中),然後只掃描大表:對於大表中的每一條記錄key/value,在hash table 中查詢是否有相同的key 的記錄,如果有,則連線後輸出即可。
15、什麼樣的計算不能用mr來提速?
1)資料量很小。
2)繁雜的小檔案。
3)索引是更好的存取機制的時候。
4)事務處理。
5)只有一臺機器的時候。
16、ETL是哪三個單詞的縮寫
Extraction-Transformation-Loading的縮寫,中文名稱為資料提取、轉換和載入。