最“全”深度學習的完整硬體指南！

人工智慧頻道發表於2018-12-26

深度學習是計算密集型的，搭建硬體環境很重要。因此您需要具有多個核心的快速CPU，對吧？在構建深度學習系統時，最糟糕的事情之一就是在沒有必要的硬體上浪費錢。在這裡，我將逐步指導您使用廉價高效能系統所需的硬體。

多年來，我總共建立了7個不同的深度學習工作站，儘管經過了仔細的研究和推理，但我還是在選擇硬體部分時犯了一些錯誤。在本指南中，我想分享一下我多年來積累的經驗，這樣你就不會再犯同樣的錯誤了。

這篇文章是按錯誤嚴重程度排序的。這意味著人們通常浪費最多錢的錯誤首先出現。

GPU

本博文假設您將使用GPU進行深度學習。如果您正在構建或升級系統以進行深度學習，那麼不考慮GPU是不明智的。 GPU正是深度學習應用程式的核心 - 處理速度的提高太大了，不容忽視。

我在GPU推薦部落格文章中詳細討論了GPU的選擇，而GPU的選擇可能是深度學習系統最關鍵的選擇。選擇GPU時可能會出現三個主要錯誤：（1）成本/效能不佳，（2）記憶體不足，（3）散熱不良。

為了獲得良好的價效比，我通常推薦使用RTX 2070或RTX 2080 Ti。如果使用這些卡，則應使用16位模型。否則，來自eBay的GTX 1070，GTX 1080，GTX 1070 Ti和GTX 1080 Ti才是好的選擇，您可以使用這些具有32位（但不是16位）的GPU。

選擇GPU時要留意記憶體的要求。 RTX卡可以以16位執行，可以訓練相比GTX卡使用相同記憶體大兩倍的型號。因此，RTX卡具有記憶體優勢，並且選擇RTX卡並學習如何有效地使用16位模型將帶您走很長的路。通常，對記憶體的要求大致如下：

正在尋找最先進分數的研究：> = 11 GB
正在尋找有趣架構的研究：> = 8 GB
其他研究：8 GB
Kaggle：4 - 8 GB
初創公司：8 GB（但檢查特定應用領域的型號尺寸）
企業專案：8 GB用於原型設計，> = 11 GB用於訓練

需要注意的另一個問題是，如果您購買多個RTX卡，則需要冷卻系統。如果您想將GPU固定在彼此相鄰的PCIe插槽中，您應該確保使用鼓風機式風扇獲得GPU。否則，您可能會遇到溫度問題，您的GPU會變得更慢（大約30％）並且更快死亡。

懷疑陣容您能否識別出因效能不佳而出現故障的硬體部分？其中一個GPU？或者也許這畢竟是CPU的錯

記憶體

RAM的主要錯誤是購買時脈頻率過高的RAM。第二個錯誤是購買不夠的RAM以獲得平滑的原型製作體驗。

所需的RAM時鐘速率

RAM時鐘速率是市場營銷的一種情況，RAM公司會引誘你購買“更快”的RAM，實際上幾乎沒有產生效能提升。

此外，重要的是要知道RAM速度與快速CPU RAM-> GPU RAM傳輸幾乎無關。這是因為（1）如果您使用固定記憶體，您的迷你批次將轉移到GPU而不涉及CPU，以及（2）如果您不使用固定記憶體，快速與慢速RAM的效能提升是關於0-3％ - 把錢花在別的地方！

RAM大小

RAM大小不會影響深度學習效能。但是，它可能會阻礙您輕鬆執行GPU程式碼（無需交換到磁碟）。你應該有足夠的記憶體來舒適地使用你的GPU。這意味著您應該至少擁有與最大GPU匹配的RAM量。例如，如果你有一個24 GB記憶體的Titan RTX，你應該至少有24 GB的RAM。但是，如果您有更多的GPU，則不一定需要更多RAM。

這種“在RAM中匹配最大GPU記憶體”策略的問題在於，如果處理大型資料集，您可能仍然無法使用RAM。這裡最好的策略是匹配你的GPU，如果你覺得你沒有足夠的RAM，只需購買更多。

一種不同的策略受到心理學的影響：心理學告訴我們，注意力是一種隨著時間推移而耗盡的資源。 RAM是為數不多的硬體之一，可以讓您節省集中資源，解決更困難的程式設計問題。如果你有更多的RAM，你可以將注意力集中在更緊迫的問題上，而不是花費大量時間來環繞RAM瓶頸。有了大量的RAM，您可以避免這些瓶頸，節省時間並提高生產率，解決更緊迫的問題。特別是在Kaggle比賽中，我發現額外的RAM對於特徵工程非常有用。因此，如果您有錢並進行大量預處理，那麼額外的RAM可能是一個不錯的選擇。因此，使用此策略，您希望現在擁有更多、更便宜的RAM而不是以後。

中央處理器

人們犯的主要錯誤是人們過分關注CPU的PCIe通道。您不應該太在意PCIe通道。相反，只需檢視您的CPU和主機板組合是否支援您要執行的GPU數量。第二個最常見的錯誤是獲得一個太強大的CPU。

CPU和PCI-Express

人們對PCIe通道位數極為痴迷！然而，事實是它對深度學習表現幾乎沒有影響。如果您只有一個GPU，則只需要PCIe通道即可快速將資料從CPU RAM傳輸到GPU RAM。然而，ImageNet批次的32個影像（32x225x225x3）和32位需要1.1毫秒，16個通道，2.3毫秒，8個通道，4.5毫秒，4個通道。這些是理論數字，實際上你經常會看到PCIe的速度是它的兩倍 - 但這仍然是閃電般快速的！ PCIe通道通常具有納秒範圍內的延遲，因此可以忽略延遲。

下面是用ResNet-152進行ImageNet32點陣圖像迷你批次傳輸測試的實際結果與理論資料的對比：

前向和後向傳遞總用時：216毫秒（ms）
16個PCIe通道CPU-> GPU傳輸：大約2 ms（理論上為1.1 ms）
8個PCIe通道CPU-> GPU傳輸：大約5毫秒（2.3毫秒）
4個PCIe通道CPU-> GPU傳輸：大約9毫秒（4.5毫秒）

因此，從4到16個PCIe通道將使效能提升約3.2％。但是，如果你使用帶有固定記憶體的PyTorch資料載入器，你可以獲得0％的效能。因此，如果您使用單個GPU，請不要在PCIe通道上浪費資金！

選擇CPU PCIe通道和主機板PCIe通道時，請確保選擇支援所需GPU數量的組合。如果您購買支援2個GPU的主機板，並且您希望最終擁有2個GPU，請確保購買支援2個GPU的CPU，但不一定要檢視PCIe通道。

PCIe通道和多GPU並行

如果您在具有資料並行性的多個GPU上訓練網路，PCIe通道是否重要？我已經在ICLR2016上發表了一篇論文，我可以告訴你，如果你有96個GPU，那麼PCIe通道非常重要。但是，如果你有4個或更少的GPU，這並不重要。如果您在2-3個GPU之間並行化，我根本不關心PCIe通道。有了4個GPU，我確保每個GPU可以獲得8個PCIe通道的支援（總共32個PCIe通道）。因為幾乎沒有人執行超過4個GPU的系統作為經驗法則：不要花費額外的錢來獲得每GPU更多的PCIe通道 - 這沒關係！

CPU核心數量很重要

為了能夠為CPU做出明智的選擇，我們首先需要了解CPU以及它與深度學習的關係。 CPU為深度學習做了什麼？當您在GPU上執行深度網路時，CPU幾乎不會進行任何計算。主要是它（1）啟動GPU函式呼叫，（2）執行CPU函式。

到目前為止，CPU最有用的應用程式是資料預處理。有兩種不同的通用資料處理策略，它們具有不同的CPU需求。

第一個策略是在訓練時進行預處理：

迴圈：

載入小批量
預處理小批量
小批量訓練

第二種策略是在訓練之前進行預處理：

預處理資料
迴圈：1.載入預處理的小批量

2.小批量訓練

對於第一種策略，具有多個核心的良好CPU可以顯著提高效能。對於第二種策略，您不需要非常好的CPU。對於第一個策略，我建議每個GPU至少有4個執行緒 - 通常每個GPU有兩個核心。我沒有對此進行過硬測試，但每增加一個核心/ GPU，你應該獲得大約0-5％的額外效能。

對於第二種策略，我建議每個GPU至少有2個執行緒 - 通常是每個GPU一個核心。如果您使用第二個策略，那麼當您擁有更多核心時，您將不會看到效能的顯著提升。

雖然這種推理似乎很明智，但是當我執行深度學習程式時，CPU有100％的使用率，那麼這裡的問題是什麼？我做了一些CPU核心速率的低頻實驗來找出答案。

MNIST和ImageNet上的CPU降頻：可以看出，不同主頻CPU在核心大幅降頻後對整個系統的效能影響不大。作為比較：從GTX 580升級到GTX Titan的效能約為+ 20％;從GTX Titan到GTX 980另外+ 30％的效能; GPU超頻可為任何GPU帶來約+ 5％的效能

請注意，這些實驗是在過時的硬體上進行的，但是，對於現代CPU / GPU，這些結果應該仍然相同。

硬碟/ SSD

硬碟通常不是深度學習的瓶頸。但是，如果你做了愚蠢的事情依然會對你造成傷害：如果你在需要時從磁碟讀取資料（阻塞等待），那麼一個100 MB / s的硬碟驅動器將花費大約185毫秒的時間用於32的ImageNet迷你批次！但是，如果您在使用資料之前非同步獲取資料（例如Torch視覺載入器），那麼您將在185毫秒內載入小批量，而ImageNet上大多數深度神經網路的計算時間約為200毫秒。因此，在當前仍處於計算狀態時載入下一個小批量，您將不會面臨任何效能損失。

但是，我推薦使用SSD來提高舒適度和工作效率：程式啟動和響應速度更快，使用大檔案進行預處理要快得多。如果您購買NVMe SSD，與普通SSD相比，您將獲得更加平滑的體驗。

因此，理想的設定是為資料集和SSD配備容量效能稍差的機械硬碟驅動器，以兼顧生產力和成本。

電源裝置（PSU）

通常，您需要一個足以容納所有未來GPU的PSU。 GPU隨著時間的推移通常會變得更加節能;因此，雖然需要更換其他元件，但PSU應該持續很長時間，因此良好的PSU是一項很好的投資。

您可以通過將CPU和GPU的功耗與其他元件的額外10％瓦特相加來計算所需的功率，並作為功率峰值的緩衝器。例如，如果您有4個GPU，每個250瓦TDP和一個150瓦TDP的CPU，那麼您將需要一個最小為4×250 + 150 + 100 = 1250瓦的PSU。我通常會新增另外10％，以確保一切正常，在這種情況下將導致總共1375瓦特。在這種情況下，我想要獲得一個1400瓦的PSU。

需要注意的一個重要部分是，即使PSU具有所需的功率，它也可能沒有足夠的PCIe 8針或6針聯結器。確保PSU上有足夠的聯結器以支援所有GPU！

另一個重要的事情是購買具有高功率效率等級的PSU - 特別是如果你執行許多GPU並將執行它們更長的時間。

以全功率（1000-1500瓦）執行4 GPU系統來訓練卷積網兩週將達到300-500千瓦時，在德國 - 相當高的電力成本為每千瓦時20美分 - 將達到60- 100歐元（66-111美元）。如果這個價格是100％的效率，那麼用80％的電源進行這樣的網路訓練會使成本增加18-26歐元。對於單個GPU而言，這個問題要少得多，但重點仍然存在——在高效電源上投入更多資金是有道理的。

全天候使用幾個GPU將大大增加您的碳足跡，並將使運輸（主要是飛機）和其他有助於您的足跡的因素蒙上陰影。如果你想要負責，請考慮像NYU機器學習語言組（ML2）那樣實現碳中性 - 它很容易做到，價格便宜，應該成為深度學習研究人員的標準。

CPU和GPU冷卻

冷卻很重要，它可能是一個重要的瓶頸，與糟糕的硬體選擇相比，它會降低效能。對於CPU來說，使用標準散熱器或一體化（AIO）水冷卻解決方案應該沒問題，但是對於GPU來說，需要特別注意。

風冷GPU

對於單個GPU，空氣冷卻是安全可靠的，或者如果您有多個GPU之間有空間（在3-4 GPU情況下為2個GPU）。但是，當您嘗試冷卻3-4個GPU時，可能會出現最大的錯誤之一，在這種情況下您需要仔細考慮您的選項。

現代GPU在執行演算法時會將速度以及功耗提高到最大值，但一旦GPU達到溫度障礙 - 通常為80°C - GPU將降低速度，以便溫度閾值為沒有違反。這樣可以在保證GPU不過熱的情況下獲得最好的效能。

然而，對於深度學習程式而言，典型的預程式設計風扇速度排程設計非常糟糕，因此在開始深度學習程式之後幾秒內就達到了這個溫度閾值。結果是效能下降（0-10％），這對於GPU相互加熱的多個GPU（10-25％）而言可能很重要。

由於NVIDIA GPU首先是一個遊戲GPU，因此它們針對Windows進行了優化。您可以在Windows中點選幾下就更改粉絲計劃，但在Linux中不是這樣，並且因為大多數深度學習庫都是針對Linux編寫的，所以這是一個問題。

Linux下唯一的選擇是用於設定Xorg伺服器（Ubuntu）的配置，您可以在其中設定“coolbits”選項。這對於單個GPU非常有效，但是如果你有多個GPU，其中一些是無頭的，即它們沒有附加監視器，你必須模擬一個非常複雜的監視器。我嘗試了很長時間，並且使用實時啟動CD來恢復我的圖形設定讓我很沮喪 - 我無法讓它在無頭GPU上正常執行。

如果在空氣冷卻下執行3-4個GPU，最重要的考慮因素是注意風扇設計。 “鼓風機”風扇設計將空氣推出到機箱背面，以便將新鮮、涼爽的空氣推入GPU。非鼓風機風扇在GPU的虛擬性中吸入空氣並冷卻GPU。但是，如果你有多個GPU彼此相鄰，那麼周圍就沒有冷空氣了，帶有非鼓風機風扇的GPU會越來越多地加熱，直到它們自己降低溫度以達到更低的溫度。不惜一切代價避免在3-4個GPU設定中的非鼓風機風扇。

用於多個GPU的水冷GPU

另一種更昂貴且更加工藝的選擇是使用水冷卻。如果你有一個GPU，或者你的兩個GPU之間有空隙（3-4 GPU板中有2個GPU），我不推薦使用水冷。然而，水冷卻確保即使最強勁的GPU在4 GPU設定下也能保持涼爽，這在用空氣冷卻時是不可能的。水冷卻的另一個優點是它可以執行很安靜，如果你在其他人工作的區域執行多個GPU，這是一個很大的優勢。水冷卻每個GPU需要花費大約100美元和一些額外的前期成本（大約50美元）。水冷還需要一些額外的工作來組裝你的計算機，但有很多詳細的指南，它應該只需要幾個小時的時間。維護不應該那麼複雜或費力。

為了更好的冷卻效果購買大機箱？

我為我的深度學習叢集購買了大型塔式機箱，但我發現這在很大程度上是無關緊要的：大約2-5°C的下降，卻導致空間佔用和成本上的飆升，不值得投資。最重要的部分是直接在GPU上的冷卻解決方案 - 而不是為GPU冷卻功能選擇昂貴的外殼。

結論冷卻

所以最後很簡單：對於1 GPU，空氣冷卻是最好的。對於多個GPU，您應該獲得鼓風式空氣冷卻並接受微小的效能損失（10-15％），或者您需要額外支付水冷卻，這也更難以正確設定並且您沒有效能損失。在某些情況下，空氣和水冷卻都是合理的選擇。然而，我會建議空氣冷卻以簡化操作 - 如果您執行多個GPU，請使用鼓風機式GPU。如果您想用水冷卻，請嘗試為GPU找到一體化（AIO）水冷卻解決方案。

主機板

您的主機板應該有足夠的PCIe埠來支援您要執行的GPU數量（通常限制為4個GPU，即使您有更多的PCIe插槽）;請記住，大多數GPU的寬度都是兩個PCIe插槽，因此如果您打算使用多個GPU，請購買PCIe插槽之間有足夠空間的主機板。確保您的主機板不僅具有PCIe插槽，而且實際上支援您要執行的GPU設定。如果您在newegg上搜尋您選擇的主機板並檢視規格頁面上的PCIe部分，通常可以找到相關資訊。

電腦機箱

選擇外殼時，應確保它支援位於主機板頂部的全長GPU。大多數情況下都支援全長GPU，但是如果你購買一個小盒子，你應該懷疑。檢查其尺寸和規格;你也可以嘗試谷歌影像搜尋該模型，看看你是否找到了帶有GPU的圖片。

如果您使用自定義水冷卻，請確保您的外殼有足夠的空間放置散熱器。如果您為GPU使用水冷卻尤其如此。每個GPU的散熱器都需要一些空間 - 確保您的設定實際上適合GPU。

顯示器

顯示器貌似不應該出現在深度學習硬體的推薦列表裡，但出乎很多人的意料，顯示器對生產力的影響極為巨大。

我在3臺27英寸顯示器上花的錢可能是我用過的最好的錢。使用多臺顯示器時，生產力會大幅提升。如果我必須使用一臺顯示器，工作幾乎不能進行。如果您無法以有效的方式操作它，不要在這件事上做出改變。那麼快速深度學習系統有什麼用呢？

我的深度學習典型顯示器佈局：左：論文，谷歌搜尋，gmail，stackoverflow;中：程式碼;右：輸出視窗，R，資料夾，系統監視器，GPU監視器，待辦事項列表和其他小型應用程式。

關於構建PC的一些話

許多人害怕構建，因為硬體元件很昂貴，你不想做錯事。但它非常簡單，因為不屬於一起的元件不能組合在一起。主機板手冊通常非常具體描述如何組裝所有內容，並且有大量的指南和分步視訊，如果您沒有經驗，它們將指導您完成整個過程。

構建計算機的好處在於，您知道在執行計算機時有關構建計算機的所有資訊，因為所有計算機都以相同的方式構建。

結論/ TL; DR

GPU ：RTX 2070或RTX 2080 Ti。來自eBay的GTX 1070，GTX 1080，GTX 1070 Ti和GTX 1080 Ti也不
CPU ：每GPU 1-2個核心，具體取決於您預處理資料的方式。 > 2GHz; CPU應該支援您要執行的GPU數量。 PCIe通道並不重要。
RAM ：
– 時脈頻率無關緊要 – 購買最便宜的RAM。
– 購買至少與最大GPU的RAM相匹配的CPU RAM。
– 僅在需要時購買更多RAM。
– 如果您經常使用大型資料集，則可以使用更多RAM。
硬碟/ SSD ：
– 用於資料的硬碟驅動器（> = 3TB）
– 使用SSD來獲得舒適性並預處理小型資料集。
PSU ：
– 加上GPU + CPU的瓦數。然後將所需瓦數的總和乘以110％。
– 如果您使用多個GPU，請獲得高效率。
– 確保PSU有足夠的PCIe聯結器（6 + 8針）
散熱：
– CPU：獲得標準CPU散熱器或一體化（AIO）水冷解決方案
– GPU：
– 使用空氣冷卻
– 如果您購買多個GPU，則使用“鼓風式”風扇獲取GPU
– 在您的Xorg中設定coolbits標誌配置控制風扇速度
主機板：
– 為您的（未來）GPU準備儘可能多的PCIe插槽（一個GPU需要兩個插槽;每個系統最多4個GPU）
監視器：
– 額外的監視器可能會比增加GPU更高效。

來自 “ ITPUB部落格 ” ，連結：http://blog.itpub.net/31545819/viewspace-2286439/，如需轉載，請註明出處，否則將追究法律責任。

深度學習在推斷階段的硬體實現方法概述
2018-04-09
深度學習
從DeepNet到HRNet，這有一份深度學習“人體姿勢估計”全指南
2019-05-07
深度學習
Linux 硬體故障排除指南
2020-03-03
Linux
全同態加密的硬體加速：讓機器學習更懂隱私保護
2024-01-26
加密機器學習
深度學習框架新手快速上手指南
2022-11-21
深度學習框架
Web3 全棧開發完整指南
2022-11-01
Web全棧
深度學習--Tensorflow初體驗
2018-05-27
深度學習
適用於初學者的完整雲端計算學習路線指南
2019-06-12
C#中的深度學習（四）：使用Keras.NET識別硬幣
2020-12-24
C#深度學習Keras
效能調優學習之硬體調優
2024-05-19
機器學習領域：硬體的未來是軟體 - octoml
2022-01-12
機器學習TOML
深度學習框架火焰圖pprof和CUDA Nsys配置指南
2024-05-08
深度學習框架
想學習大資料？這才是完整的大資料學習體系
2019-05-11
大資料
Python利用深度學習進行文字摘要的綜合指南（附教程）
2019-07-16
Python深度學習
深度學習+深度強化學習+遷移學習【研修】
2021-03-25
深度學習強化學習遷移學習
最簡單的深度學習演算法——感知器的前世今生
2019-11-11
深度學習演算法
記憶體計算顯著降低，平均7倍實測加速，MIT提出高效、硬體友好的三維深度學習方法
2019-12-10
記憶體MIT深度學習
深度學習及深度強化學習研修
2021-01-04
深度學習強化學習
C#中的深度學習（二）：預處理識別硬幣的資料集
2020-12-22
C#深度學習
深度學習學習框架
2018-08-02
深度學習框架
####深度學習
2024-03-16
深度學習
深度學習
2024-03-10
深度學習
深度學習
2024-03-21
涵蓋 14 大主題！最完整的 Python 學習例項集來了！
2021-09-22
Python
想知道深度學習如何運作？這是所有工程師的快速指南
2019-04-04
深度學習工程師
深度學習及深度強化學習應用
2021-01-04
深度學習強化學習
即是學習機又是學習燈，喵小派智慧教育硬體將問世
2021-11-10
全網最詳細最齊全的序列化技術及深度解析與應用實戰
2021-11-16
【譯】使用 ML.NET 進行機器學習 - 叢集完整指南
2023-02-12
機器學習
拯救深度學習：標註資料不足下的深度學習方法
2020-10-16
深度學習
【深度學習】大牛的《深度學習》筆記，Deep Learning速成教程
2018-04-07
深度學習筆記
深度學習的工作原理
2019-04-07
深度學習
深度學習中的Dropout
2020-12-02
深度學習
讀懂深度學習，走進“深度學習+”階段
2023-01-13
深度學習
TensorFlow與PyTorch之爭，哪個框架最適合深度學習
2019-09-02
PyTorch框架深度學習
深度學習——學習目錄——學習中……
2019-02-19
深度學習
超智慧體L01：9分鐘的深度學習
2018-09-28
智慧體深度學習
機器視覺軟體中的深度學習技術
2018-04-26
視覺深度學習

最“全”深度學習的完整硬體指南！

相關文章