spark執行原理、模型

weixin_34249678發表於2018-08-03

2018/08/02
看了這麼久的spark的書,他們都是講怎麼用spark的api去程式設計,而對於spark內部的執行原理卻隻字不提,或者言之甚少,重新再去看container和worker的關係,就很難理解這之間的數量關係。


2018/08/03
最主要的內容是這樣的,昨天看了很多關於spark的網文,他們並沒有去詳細的介紹work、container、cores的關係,而是重點關注了spark的運作模型上,從RDD的角度出發,從任務部署的角度出發(應該還算不到任務排程,雖然涉及了,但我覺得不算是排程,僅僅是分配,可能我接觸的都是並沒有資源競爭的)。
通過job、task、stage這幾個方向的角度,對整體上一個應用的執行模型進行了介紹。大致上有了些許理解,但還是感覺差戳破那層紙。


他們主要圍繞的也就是RDD的這個資料處理的內容,這個算是整個資料處理流程的出發點。
2018/11/27
這他麼當時也沒留下一些乾貨,以後怕是直接就忘了,即使翻出書也跟新的知識一樣。

相關文章