SparkStreaming推測機制：面試被問遇到什麼問題，說這個顯水平！

努力的老劉發表於2021-01-02

原文網址 : https://www.cnblogs.com/bigdatalaoliu/p/14222871.html

Spark面試

背景

老劉最近晚上會刷刷牛客網的大資料開發面經，總是會看到一個高頻的面試題，那就是你在學習過程中遇到過什麼問題嗎？

這個問題其實有點難回答，如果我說的太簡單了，會不會讓面試官覺得水平太低，那我應該講什麼東西呢？我一個自學的不可能遇到什麼高階問題呀！

對於這個問題的答案網上也是眾說紛紜，老劉也講講對這個問題的看法，分享一下自己的見解，歡迎各位夥伴前來battle！

過程

在尋找這個問題答案的過程中，老劉正好在學習spark框架的實時計算模組SparkStreaming，它裡面就有一個非常經典的問題，關於推測機制的！

什麼是推測機制？

如果有很多個task都在執行，很多task一下就完成了自己的任務，但是有一個task執行的很慢。在實時計算任務中，如果對實時性要求比較高，就算是兩三秒也要在乎這些。

所以在sparkstreaming中有一個推測機制專門來解決這個執行的很慢的task。

每隔一段時間來檢查有哪些正在執行的task需要重新排程，假設總的task有10個，成功執行的task數量>0.75x10，正在執行的task的執行時間>1.5x成功執行task的平均時間，則這個正在執行的task需要重新等待排程。

但是這裡有一個很嚴重的問題，最開始自學的時候發現了，接著在看一些機構視訊裡面也有講到這個問題，說明老劉在自學過程中覺悟也在慢慢提高。

這個問題就是如果這個正在執行的task遇到資料傾斜怎麼辦？

假如有5個task，有一個task遇到了資料傾斜，但就算遇到資料傾斜（稍微有點資料傾斜，也沒事），它也會完成任務，它需要6s，其他4個任務只需要1s。那開啟推測機制後，這個任務好不容易執行到了2s，快要成功了，但遇到了推測機制，它就需要重新排程重新執行，下一次執行了3s，遇到推測機制就會重新執行，整個過程一直在迴圈，這就是老劉要說的問題！

某個培訓機構視訊裡面的老師說這個問題還行，老劉自己也想到了看出了推測機制的這個缺點，所以就分享給大家！

解決

那開啟推測機制遇到資料傾斜，怎麼辦？

我們可以採用一些解決資料傾斜的辦法，老劉大致講一下關於資料傾斜的幾個解決方案：

1、如果發現導致資料傾斜的key就幾個，而且對計算本身的影響並不大的話，就可以採用過濾少數導致傾斜的key

2、兩階段聚合，將原本相同的key通過附加隨機字首的方式，變成多個不同的key，就可以讓原本被一個task處理的資料分散到多個task上去做區域性聚合，進而解決單個task處理資料量過多的問題。接著去除掉隨機字首，再次進行全域性聚合，就可以得到最終的結果。但是這個方法只適用於聚合類的shuffle操作，不適合join類的shuffle操作。

3、對於join導致的資料傾斜，如果只是某幾個key導致了傾斜，可以將少數幾個key分拆成獨立RDD，並附加隨機字首打散成n份去進行join，此時這幾個key對應的資料就不會集中在少數幾個task上，而是分散到多個task進行join了。適用於兩個資料量比較大的表進行join。

4、如果在進行join操作時，RDD中有大量的key導致資料傾斜，那麼進行分拆key也沒什麼意義，此時就只能使用這一種方案來解決問題了。將原先一樣的key通過附加隨機字首變成不一樣的key，然後就可以將這些處理後的“不同key”分散到多個task中去處理，而不是讓一個task處理大量的相同key。

好啦，SparkStreaming推測機制講完了，大家以後可以拿這塊的內容回答面試官。如果有什麼問題，可以聯絡公眾號：努力的老劉，歡迎大家來和老劉battle！

MyBatis面試題集合，90%會遇到這些問題
2019-08-28
MyBatis面試題
面試被問到什麼是AQS，這樣答滿分
2024-03-07
面試AQS
當面試官問你這個問題的時候，他想聽到什麼？
2022-03-21
面試
面試被問TopK問題，可以這樣優雅的解答
2021-12-16
面試TopK
每個軟體測試員最怕被問的問題：“測得怎麼樣了？”
2022-07-07
測試面試問題（二）
2020-10-23
面試
面試遇到的redis相關問題
2020-11-10
面試Redis
面試常問的dubbo的spi機制到底是什麼？
2022-06-07
面試
當面試官說“你還有什麼問題想問的”,你該如何回答？
2019-04-04
面試
當面試官說 “你還有什麼問題想問的” ，你該如何回答？
2019-03-30
面試
當面試官說 “你還有什麼問題想問的”，你該如何回答？
2019-11-07
面試
【乾貨分享】面試軟體測試工程師會被問到哪些問題？
2020-02-17
面試工程師
跳槽時，這些Java面試題99%會被問到
2021-12-12
Java面試題
迴歸測試遇到的問題求助
2024-05-08
Android 面試 15 家大廠，這個問題是必問！
2019-04-10
Android面試
【乾貨】每個軟體測試員最怕被問的問題：“測得怎麼樣了？”
2019-10-12
每個軟體測試員最怕被問的問題：“測得怎麼樣了？”做測試太難了
2019-09-18
這個Maven依賴的問題，你敢說你沒遇到過
2020-05-30
Maven
2019年Spring Boot面試都問了什麼？快看看這22道面試題！
2019-11-26
Spring Boot面試題
面試中遇到的一些問題
2018-07-01
面試
橫趟！面試中遇到的 ZooKeeper 問題
2021-04-22
面試
每次面試都會被問，什麼是紅黑樹？
2021-11-23
面試
面試 HTTP ，99% 的面試官都愛問這些問題
2020-04-20
面試HTTP
雲真機可以幫助測試解決什麼問題？
2022-04-27
android單元測試遇到問題總結
2018-05-31
Android
軟體測試面試問題(一)
2022-08-24
面試
邦芒面試：面試時這些問題不能提，否則會被降分
2023-11-23
面試
Python面試最常問的10個問題
2018-07-31
Python面試
軟體測試面試問題_介面測試(二)
2022-08-25
面試
專案中遇到的RediS快取問題及面試問題總結
2019-04-15
Redis快取面試
面試被問MyBatis原理？
2022-04-07
面試MyBatis
大廠Android面試，居然還問這些問題！
2019-03-29
Android面試
邦芒面試：面試時要問清楚的幾個問題
2024-02-01
面試
面試反問問題
2024-11-04
面試
一個不常遇到的HbuilderX自動化測試執行問題
2021-12-30
UI
詢問面試官的面試問題
2022-04-19
面試
軟體測試面試常見問題
2020-06-09
面試
PHPer、Laravel 面試可能會遇到的問題及答案
2019-02-16
PHPLaravel面試

SparkStreaming推測機制：面試被問遇到什麼問題，說這個顯水平！

背景

過程

解決

相關文章