首先來看 CPU 和 GPU 的百科解釋:
-
CPU(Central ProcessingUnit,中央處理器):功能主要是解釋計算機指令以及處理計算機軟體中的資料
-
GPU(Graphics ProcessingUnit,圖形處理器;又稱顯示核心、顯示卡、視覺處理器、顯示晶片或繪圖晶片):GPU 不同於傳統的 CPU,如Intel i5 或 i7 處理器,其核心數量較少,專為通用計算而設計。相反,GPU是一種特殊型別的處理器,具有數百或數千個核心,經過最佳化,可並行執行大量計算。雖然 GPU 在遊戲中以 3D 渲染而聞名,但它們對執行分析、深度學習和機器學習演算法尤其有用。GPU 允許某些計算比傳統 CPU 上執行相同的計算速度快 10 倍至 100 倍。
CPU 和 GPU 之所以大不相同,是由於其設計目標的不同,它們分別針對了兩種不同的應用場景:
- CPU 需要很強的通用性來處理各種不同的資料型別,同時又要邏輯判斷又會引入大量的分支跳轉和中斷的處理。這些都使得 CPU 的內部結構異常複雜
- 而 GPU 面對的則是型別高度統一的、相互無依賴的大規模資料和不需要被打斷的純淨的計算環境
於是 CPU 和 GPU 就呈現出非常不同的架構(如下圖 1-3 所示,圖片來源 Nvidia),其中 GPU 部分的綠色是計算單元(ALU),橙紅色是儲存單元(Cache),橙黃色是控制單元(Control),DRAM 代表記憶體:
由上圖 1-3 可以看出:GPU 採用了數量眾多的計算單元和超長的流水線,但只有非常簡單的控制邏輯並省去了 Cache。而 CPU 不僅被 Cache 佔據了大量空間,而且還有有複雜的控制邏輯和諸多最佳化電路,相比之下計算能力只是 CPU 很小的一部分。
由此我們引出 CPU 和 GPU 的設計目標:
1)CPU 是基於低延遲(Low Latency)的設計,核心數量較少
- Powerful ALU(強大的算術運算單元):它可以在很少的時鐘週期內完成算術計算;
- Large Caches(大的快取):將部分資料儲存在快取中,使得長延遲的記憶體訪問轉換稱短延遲的快取訪問;
- Sophisticated Control(複雜的邏輯控制單元):當程式含有多個分支的時候,它透過提供分支預測的能力來降低分支延時;並且,當一些指令依賴前面的指令結果時,它透過提供儘可能快的資料轉發的能力來減少資料延遲。
2)GPU 是基於大吞吐量(Big Throughput)的設計,核心數量較多
-
Small Caches(小的快取):GPU 中快取的目的不是儲存後面需要訪問的資料的,這點和 CPU 不同,而是為 Thread 提供服務的。如果有很多執行緒需要訪問同一個相同的資料,快取會合並這些訪問,然後再去訪問記憶體。但是由於需要訪問記憶體,自然會帶來延時的問題;
批次讀取/訪問,一個非常常見的提升吞吐量的設計,比如 Kafka 中就用到了類似思想
-
Simple Control(簡單的邏輯控制單元):把多個的訪問合併成少的訪問;
-
Energy efficient ALUs(大量的算術運算單元):如上所述,GPU 雖然有記憶體延時,卻有非常多的 ALU 並支援非常多的 Thread,因此,可以充分利用 ALU 儘可能多地分配執行緒從而達到非常大的吞吐量。
總結來說,作為強大的執行引擎,CPU 將它數量相對較少的核心集中用於處理單個任務,並快速將其完成。這使它尤其適合用於處理邏輯控制、序列計算、資料庫執行等型別的工作。
相比之下,GPU 由數百個核心組成,可以同時處理數千個執行緒,所以與 CPU 擅長、序列的運算和通用型別資料運算不同,GPU 擅長的是大規模併發計算,將複雜的問題分解成數千或數百萬個獨立的任務,並一次性解決它們,比如影像處理任務,包括紋理、燈光和形狀渲染等子任務都必須同時完成,以保持影像在螢幕上快速呈現,除此之外,GPU 還被大量應用於深度學習、密碼破解等任務中。
表 1.1 CPU 和 GPU 的區別
CPU | GPU |
---|---|
Several cores | Many cores |
Low latency | High throughput |
Good for serial processing | Good for parallel processing |
Can do a handful of operations at once | Can do thousands of operations at once |
下面用一個通俗的例子來做個比喻:
注意只是比喻,可能不會太恰當,主要是幫助理解
假設我們需要做一道雞兔同籠的小學奧數題(來源 1500 年前的《孫子算經》):
- 今有雉兔同籠,上有三十五頭,下有九十四足,問雉兔各幾何?
計算題目,理解題目並且整理出解題的步驟以及解法,這是 CPU 乾的事情,於是 CPU 給出了類似下面的二元一次方程:
解題的過程需要用到的眾多計算,則需要一幫不需要很高邏輯理解力的計算者完成,他們只需要負責其中很簡單但是數量又很大的簡單運算就行了,最後他們把各自運算的結果交出來給 CPU 整理,那麼這群計算者就是 GPU。
簡單來說就是:
- CPU 力氣大啥事都能幹,還要協調手下各類小弟;
- GPU 就是 CPU 的其中一個小弟,老大分配給給他處理圖形或者平行計算等任務,這方面處理簡單,但是量大,老大雖然能處理,可是精力有限(指 CPU 核心數量較少),所以不如交給小弟處理了,小弟精力旺盛(指 GPU 擁有大量核心),而且專門幹這行,非常有經驗,幹起活兒來賊快。
本文首發於公眾號@飛天小牛肉,阿里雲 & InfoQ 簽約作者,分享大廠面試原創題解和個人成長經驗,覺得有用的小夥伴點點關注呀~