世界最快超級計算機 探祕天河一號

洛欣發表於2010-12-29
處理器的效能提升一直決定著全球超級計算機運算能力的發展。過去的約10年裡,TOP500全球最高速超級計算機的總運算效能提升速度基本上和摩爾定律保持一致。然而在2007年左右,TOP500超級計算機的效能開始明顯的加速上漲,這一時間點,正是GPU被引入超級計算機的開端。從此GPU作為超級計算機中重要的效能部件彰顯著不可替代的作用,CPU+GPU的異構超算能帶來比同樣規模的純CPU提供數以倍計的浮點科學計算能力。

  這種“異構計算”應用的典型例子就是中國的天河一號A,它使用了超過14000顆CPU,輔以7168顆Tesla M2050 GPU,總運算能力2.5PFLOPS,成為當今全球最強的超級計算機。天河一號主任設計師,國防科大計算機學院系統軟體研究室主任楊燦群今天也到場介紹了該機的設計過程。據稱,從去年的試驗性系統,到今年的天河一號A,他們將GPU加速的效率從20%提升到了70%,同時使用自主開發的節點網路系統,規模和效能是去年使用的進口成套網路系統的兩倍。

世界最快超級計算機探祕天河一號
NV創始人黃仁勳在2010高效能運算峰會上專門講述了天河一號A

跟隨NVidia2010高效能運算峰會的腳步,我們有幸參觀了國家超級計算天津中心,並進距離的深入瞭解其中的天河一號A超級計算機,這種機會非常難得。

世界最快超級計算機探祕天河一號
國家超級計算天津中心 天河一號所在

世界最快超級計算機探祕天河一號
國家超級計算天津中心

  天河的命名來自於國防科大“銀河”系列超級計算機與天津的結合。天河一號A配備了14336顆Intel Xeon X5670 2.93GHz六核心處理器(32nm Westmere-EP),2048顆我國自主研發的飛騰FT-1000八核心處理器,以及7168塊NVIDIA Tesla M2050高效能運算卡,總計186368個核心,224TB記憶體,使用自主研製的互連網路架構、Linux作業系統,Linpack最大效能2.566PFlops(每秒千萬億次浮點運算)、峰值效能4.701PFlops,系統效率54.6%,技壓群雄獲最新全球超算TOP500排名首位,成為全球最強超級計算機。

  

世界最快超級計算機探祕天河一號

世界最快超級計算機探祕天河一號

世界最快超級計算機探祕天河一號
黃仁勳與國家超級計算天津中心主任劉光明

  

世界最快超級計算機探祕天河一號
天河一號A其實就這這一排排的機櫃

世界最快超級計算機探祕天河一號
真名應該叫:天河高效能計算機系統

世界最快超級計算機探祕天河一號

世界最快超級計算機探祕天河一號
天河一號A中的GPU運算節點

黃仁勳與國家超級計算天津中心楊燦群教授展示天河一號A中的GPU運算節點。楊燦群教授是天河一號主任設計師,國防科大計算機學院系統軟體研究室主任。

天河一號A配備了14336顆Intel Xeon X5670 2.93GHz六核心處理器(32nm Westmere-EP),2048顆我國自主研發的飛騰FT-1000八核心處理器,以及7168塊NVIDIA Tesla M2050高效能運算卡,總計186368個核心,224TB記憶體。

世界最快超級計算機探祕天河一號
傳說中的完全自主智慧財產權的飛騰CPU計算節點

世界最快超級計算機探祕天河一號
八核64執行緒的飛騰1000處理器

世界最快超級計算機探祕天河一號
現場展示的各種超算應用

天河一號A配備了14336顆Intel Xeon X5670 2.93GHz六核心處理器(32nm Westmere-EP)以及7168塊NVIDIA Tesla M2050高效能運算卡,總計186368個核心,224TB記憶體,

世界最快超級計算機探祕天河一號
GPU計算節點,其上為兩路MV TeslaM2050

世界最快超級計算機探祕天河一號
至強CPU計算節點

世界最快超級計算機探祕天河一號
黃仁勳先生與劉光明主任在天河一號前合影留念

  

  參觀行程之後,黃仁勳、中國國家超級計算天津中心主任劉光明和天河一號主任設計師,國防科大計算機學院系統軟體研究室主任楊燦群在現場接受了媒體的採訪,以下為採訪全文。

  問:天河一號A使用了14336顆Intel Xeon和7168塊NVIDIA Tesla。HPC中CPU和GPU搭配的數量比例平衡由什麼因素決定?

  劉光明:是這樣。基本上,我們在天河一號A中主要使用通用CPU做一些複雜計算,一些比較規程的大規模平行計算放到GPU上來做。我們在去年的9月份做了一次試驗,根據現在的研究情況,這種2:1的比例比較合理,效率比較高。現在這臺機器已經在硬體設計的時候設定了這種比例,不會再做改變。不過現在是千萬億次,未來到萬萬億次的時候,根據到時候的應用狀況可能比例還會有變化,這個還需要繼續的研究。

  問:NVIDIA未來有怎樣的計劃來推廣Tesla產品?

  黃仁勳:CPU+GPU的架構已經被證明在平行計算領域擁有非常高的效能和非常高的能效。這個道理非常簡單,用最適合的處理器來執行最合適的應用,就能獲得最高的效率。就像所有中國的年輕人都知道的那樣,要打造一臺遊戲PC,獲得最高效能、最高效率的方法就是購買GeForce GPU。我們在設計GPU的時候已經加入了通用計算的思想,因此我們的產品現在不僅僅可以用來加速遊戲圖形,還可以將GPU運用在通用科學計算領域。

  楊博士、劉博士的團隊有這樣的遠見,在幾年前就看到了將GPU應用在HPC中的潛力。事實上今天在科學計算、高效能運算領域的每一位研究者都認識到,在超級計算機中使用GPU是一種非常有效的提升效能的方式。高效能運算領域的權威雜誌《HPC Wire》本週剛剛撰文指出,GPU加速已經是超級計算機領域的頭號趨勢。雖然現在這種趨勢已經非常明顯,但在兩年前,當天河剛剛啟動開發的時候,這種選擇還是有相當高的風險。我在這裡首先要感謝楊博士、劉博士,感謝他們卓有遠見的選擇。

  天河一號A現在為全球的超級計算機設定了一個新標準,提升了人們對HPC的期待值。中國政府也已經認識到,在超級計算機領域的投資,實際上是對知識基礎設施的投入。計算能力已經成了科研的命脈,投資超級計算機實際上和投資建設道路、高速網際網路一樣的重要。投資高效能運算可以引領我們實現新的探索、新的發現,最終使各個產業受益。

  

  天津超算中心的這臺超計算機,不僅對科研領域相當重要,對各個行業也都有相當關鍵的意義。就像劉博士介紹的那樣,他們的超級計算機被應用在醫療領域研發新藥延長我們的生命,設計更好的汽車、飛機,甚至創造出色的電影、電視節目。超級計算已經滲透到了我們生活的各個方面。雖然Tesla已經在遍佈全球的超級計算領域得到了相當大的成功,但我們的信仰,我們的策略是讓Tesla應用在各行各業當中,讓企業自己使用Tesla來進行產品開發、設計,讓他們的產品更早的投放市場,創造更好、更具競爭力的產品。

  目前,全球最高能效超級計算機的前十名中,已經有7臺使用了Tesla。我相信,這呈現了一種趨勢,未來將有越來越多的企業使用基於GPU通用計算的超級計算機,Tesla HPC將成為一個非常龐大的市場。因此我們才和包括惠普、戴爾、IBM、Cray、SGI、浪潮等全球所有主流的高效能運算、伺服器廠商合作,向使用者提供Tesla產品。使用者現在可以在全球任何一個國家,通過任何一家主流廠商購買Tesla產品。

  問:如今硬體的銷售越來越依賴於軟體應用的發展。NVIDIA有沒有類似蘋果App Store那樣的軟體應用平臺計劃,吸引軟體開發者的加入?

  黃仁勳:不錯,每當你造出了一顆新的處理器,你必須要提供新的應用軟體。我們在傳播如何進行平行計算程式設計的領域,投入了大量的資源。CPU代表著順序執行,每次一個任務,而GPU擁有著大量的流處理核心,可以同步運作。我們必須建立一個有效的平行計算架構,同時也需要教導普及全球的軟體開發人員,如何來用全新的並行思想程式設計。

  我們一直在CUDA教育領域持續進行著推廣,如今全球有接近400所大學在教授CUDA程式設計課程。CUDA教材已經以英語、中文、日語、俄語等多種語言全球出版。全球註冊CUDA開發人員超過10萬人。設計、分析、數字創作等領域重要的第三方軟體,包括Adobe、MATLab、ANSYS、AMBER、3DStudio MAX等都已經支援CUDA。我們現在還有很多的軟體開發工作正在進行當中。

  如今,全球CUDA軟體開發群體的增長勢頭非常迅猛。這是因為,全世界最快、中國最快、日本最快、俄國最快的超級計算機都在使用CUDA,開發者們都希望能夠使用這些最強的HPC來進行工作。同時,從蘋果、惠普、戴爾、聯想,到全球每一家網咖中的電腦,每一臺擁有GeForce顯示卡的PC也都支援CUDA,開發者們可以在自己的電腦上進行開發。CUDA無處不在。

  有一點非常重要,在每家企業的多種計算應用中,往往只有一兩個應用佔用絕大部分的運算效能。不是所有的應用都同樣重要,只要我們在這些關鍵應用上應用GPU實現大幅提速,就能極大的提升他們的效率。

  問:天河一號A在效能、效率、能耗方面相比上代都有了大幅提升,這背後主要是在哪些方面進行了改進?

  楊燦群:天河1A這一代系統的實際效能、計算效率大幅度的提高,主要有幾個方面的原因,包括自主研發的新高速網路系統,軟體優化後提升了應用效率,以及NVIDIA Tesla平行計算GPU的加入。

  問:天河一號A如今已經是全球最快超級計算機,為了保持這種優勢,我們未來需要有怎樣的努力和創新?NVIDIA未來將對中國的超級計算機發展提供怎樣的支援?

  劉光明:中國的高效能運算機發展經歷了30多年的歷程,從1978年的銀河1開始,一直到現在的天河一號A。這些努力並不是為了爭得一個世界第幾的排名,確確實實是我們國家急需這樣的高效能運算能力。作為天河來講,在突破千萬億次大關的過程中,遇到了世界性的難題。從2005年到2007年,我們一直在進行研究,最終決定採用異構架構,即通用處理器和專用加速處理器結合的方式突破這一難題。這中間我們試驗過自己的軍用流處理器FT100,去年也嘗試過AMD的GPU,最後發現了NVIDIA的晶片效能更好。

  這裡大家需要注意一點,高效能運算機能夠做出來,做出Linpack測試到世界第一,並不等於能夠在實際應用中用好。這是兩個問題,如何在異構結構下有效的程式設計是下一個大的挑戰。我們有一個專門的團隊從幾年前就在開展這項工作,現在已經得到了不錯的成績,但未來還有很多的任務要做。

  黃仁勳:劉博士說的很對,平行計算面臨的困難非常多,但正確解決這些困難帶來的效益也非常可觀。整個行業過去30年都在努力想要解決平行計算的難題,卻幾乎沒有一家得到成功。直到CUDA的出現,我們終於找到了CPU+GPU的異構計算模式。這項革命性的技術花費了NVIDIA公司多年的時間和數十億美元的投資。NVIDIA在平行計算領域的投資超過世界上任何一家企業。因為CUDA,平行計算現在有一個非常光明的前景。不過,在這一領域我們仍然面臨著非常多的挑戰。未來,我們將更加緊密的同劉博士的團隊合作,創造下一臺更強的超級計算機系統。

  中國已經認識到超級計算機對未來各個領域的重要性,NVIDIA非常榮幸能夠在中國的超級計算機發展中提供自己的支援。世界現在已經越來越小,科技領域的發展能夠讓全世界每一個人受益,中國超級計算機的進步實際上可以造福整個人類。我們將提供自己最出色的工程師來幫助中國建造更高速的超級計算機,幫助他們更有效的進行平行計算程式設計,並在中國的所有高校普及平行計算教育。我相信,未來每一個從高校畢業的計算機技術人員都將必備平行計算知識。序列計算是過去式,平行計算才代表了未來。處理器的效能提升一直決定著全球超級計算機運算能力的發展。過去的約10年裡,TOP500全球最高速超級計算機的總運算效能提升速度基本上和摩爾定律保持一致。然而在2007年左右,TOP500超級計算機的效能開始明顯的加速上漲,這一時間點,正是GPU被引入超級計算機的開端。從此GPU作為超級計算機中重要的效能部件彰顯著不可替代的作用,CPU+GPU的異構超算能帶來比同樣規模的純CPU提供數以倍計的浮點科學計算能力。

  這種“異構計算”應用的典型例子就是中國的天河一號A,它使用了超過14000顆CPU,輔以7168顆Tesla M2050 GPU,總運算能力2.5PFLOPS,成為當今全球最強的超級計算機。天河一號主任設計師,國防科大計算機學院系統軟體研究室主任楊燦群今天也到場介紹了該機的設計過程。據稱,從去年的試驗性系統,到今年的天河一號A,他們將GPU加速的效率從20%提升到了70%,同時使用自主開發的節點網路系統,規模和效能是去年使用的進口成套網路系統的兩倍。

世界最快超級計算機探祕天河一號
NV創始人黃仁勳在2010高效能運算峰會上專門講述了天河一號A

跟隨NVidia2010高效能運算峰會的腳步,我們有幸參觀了國家超級計算天津中心,並進距離的深入瞭解其中的天河一號A超級計算機,這種機會非常難得。

世界最快超級計算機探祕天河一號
國家超級計算天津中心 天河一號所在

世界最快超級計算機探祕天河一號
國家超級計算天津中心

  天河的命名來自於國防科大“銀河”系列超級計算機與天津的結合。天河一號A配備了14336顆Intel Xeon X5670 2.93GHz六核心處理器(32nm Westmere-EP),2048顆我國自主研發的飛騰FT-1000八核心處理器,以及7168塊NVIDIA Tesla M2050高效能運算卡,總計186368個核心,224TB記憶體,使用自主研製的互連網路架構、Linux作業系統,Linpack最大效能2.566PFlops(每秒千萬億次浮點運算)、峰值效能4.701PFlops,系統效率54.6%,技壓群雄獲最新全球超算TOP500排名首位,成為全球最強超級計算機。

  

世界最快超級計算機探祕天河一號

世界最快超級計算機探祕天河一號

世界最快超級計算機探祕天河一號
黃仁勳與國家超級計算天津中心主任劉光明

  

世界最快超級計算機探祕天河一號
天河一號A其實就這這一排排的機櫃

世界最快超級計算機探祕天河一號
真名應該叫:天河高效能計算機系統

世界最快超級計算機探祕天河一號

世界最快超級計算機探祕天河一號
天河一號A中的GPU運算節點

黃仁勳與國家超級計算天津中心楊燦群教授展示天河一號A中的GPU運算節點。楊燦群教授是天河一號主任設計師,國防科大計算機學院系統軟體研究室主任。

天河一號A配備了14336顆Intel Xeon X5670 2.93GHz六核心處理器(32nm Westmere-EP),2048顆我國自主研發的飛騰FT-1000八核心處理器,以及7168塊NVIDIA Tesla M2050高效能運算卡,總計186368個核心,224TB記憶體。

世界最快超級計算機探祕天河一號
傳說中的完全自主智慧財產權的飛騰CPU計算節點

世界最快超級計算機探祕天河一號
八核64執行緒的飛騰1000處理器

世界最快超級計算機探祕天河一號
現場展示的各種超算應用

天河一號A配備了14336顆Intel Xeon X5670 2.93GHz六核心處理器(32nm Westmere-EP)以及7168塊NVIDIA Tesla M2050高效能運算卡,總計186368個核心,224TB記憶體,

世界最快超級計算機探祕天河一號
GPU計算節點,其上為兩路MV TeslaM2050

世界最快超級計算機探祕天河一號
至強CPU計算節點

世界最快超級計算機探祕天河一號
黃仁勳先生與劉光明主任在天河一號前合影留念

  

  參觀行程之後,黃仁勳、中國國家超級計算天津中心主任劉光明和天河一號主任設計師,國防科大計算機學院系統軟體研究室主任楊燦群在現場接受了媒體的採訪,以下為採訪全文。

  問:天河一號A使用了14336顆Intel Xeon和7168塊NVIDIA Tesla。HPC中CPU和GPU搭配的數量比例平衡由什麼因素決定?

  劉光明:是這樣。基本上,我們在天河一號A中主要使用通用CPU做一些複雜計算,一些比較規程的大規模平行計算放到GPU上來做。我們在去年的9月份做了一次試驗,根據現在的研究情況,這種2:1的比例比較合理,效率比較高。現在這臺機器已經在硬體設計的時候設定了這種比例,不會再做改變。不過現在是千萬億次,未來到萬萬億次的時候,根據到時候的應用狀況可能比例還會有變化,這個還需要繼續的研究。

  問:NVIDIA未來有怎樣的計劃來推廣Tesla產品?

  黃仁勳:CPU+GPU的架構已經被證明在平行計算領域擁有非常高的效能和非常高的能效。這個道理非常簡單,用最適合的處理器來執行最合適的應用,就能獲得最高的效率。就像所有中國的年輕人都知道的那樣,要打造一臺遊戲PC,獲得最高效能、最高效率的方法就是購買GeForce GPU。我們在設計GPU的時候已經加入了通用計算的思想,因此我們的產品現在不僅僅可以用來加速遊戲圖形,還可以將GPU運用在通用科學計算領域。

  楊博士、劉博士的團隊有這樣的遠見,在幾年前就看到了將GPU應用在HPC中的潛力。事實上今天在科學計算、高效能運算領域的每一位研究者都認識到,在超級計算機中使用GPU是一種非常有效的提升效能的方式。高效能運算領域的權威雜誌《HPC Wire》本週剛剛撰文指出,GPU加速已經是超級計算機領域的頭號趨勢。雖然現在這種趨勢已經非常明顯,但在兩年前,當天河剛剛啟動開發的時候,這種選擇還是有相當高的風險。我在這裡首先要感謝楊博士、劉博士,感謝他們卓有遠見的選擇。

  天河一號A現在為全球的超級計算機設定了一個新標準,提升了人們對HPC的期待值。中國政府也已經認識到,在超級計算機領域的投資,實際上是對知識基礎設施的投入。計算能力已經成了科研的命脈,投資超級計算機實際上和投資建設道路、高速網際網路一樣的重要。投資高效能運算可以引領我們實現新的探索、新的發現,最終使各個產業受益。

  

  天津超算中心的這臺超計算機,不僅對科研領域相當重要,對各個行業也都有相當關鍵的意義。就像劉博士介紹的那樣,他們的超級計算機被應用在醫療領域研發新藥延長我們的生命,設計更好的汽車、飛機,甚至創造出色的電影、電視節目。超級計算已經滲透到了我們生活的各個方面。雖然Tesla已經在遍佈全球的超級計算領域得到了相當大的成功,但我們的信仰,我們的策略是讓Tesla應用在各行各業當中,讓企業自己使用Tesla來進行產品開發、設計,讓他們的產品更早的投放市場,創造更好、更具競爭力的產品。

  目前,全球最高能效超級計算機的前十名中,已經有7臺使用了Tesla。我相信,這呈現了一種趨勢,未來將有越來越多的企業使用基於GPU通用計算的超級計算機,Tesla HPC將成為一個非常龐大的市場。因此我們才和包括惠普、戴爾、IBM、Cray、SGI、浪潮等全球所有主流的高效能運算、伺服器廠商合作,向使用者提供Tesla產品。使用者現在可以在全球任何一個國家,通過任何一家主流廠商購買Tesla產品。

  問:如今硬體的銷售越來越依賴於軟體應用的發展。NVIDIA有沒有類似蘋果App Store那樣的軟體應用平臺計劃,吸引軟體開發者的加入?

  黃仁勳:不錯,每當你造出了一顆新的處理器,你必須要提供新的應用軟體。我們在傳播如何進行平行計算程式設計的領域,投入了大量的資源。CPU代表著順序執行,每次一個任務,而GPU擁有著大量的流處理核心,可以同步運作。我們必須建立一個有效的平行計算架構,同時也需要教導普及全球的軟體開發人員,如何來用全新的並行思想程式設計。

  我們一直在CUDA教育領域持續進行著推廣,如今全球有接近400所大學在教授CUDA程式設計課程。CUDA教材已經以英語、中文、日語、俄語等多種語言全球出版。全球註冊CUDA開發人員超過10萬人。設計、分析、數字創作等領域重要的第三方軟體,包括Adobe、MATLab、ANSYS、AMBER、3DStudio MAX等都已經支援CUDA。我們現在還有很多的軟體開發工作正在進行當中。

  如今,全球CUDA軟體開發群體的增長勢頭非常迅猛。這是因為,全世界最快、中國最快、日本最快、俄國最快的超級計算機都在使用CUDA,開發者們都希望能夠使用這些最強的HPC來進行工作。同時,從蘋果、惠普、戴爾、聯想,到全球每一家網咖中的電腦,每一臺擁有GeForce顯示卡的PC也都支援CUDA,開發者們可以在自己的電腦上進行開發。CUDA無處不在。

  有一點非常重要,在每家企業的多種計算應用中,往往只有一兩個應用佔用絕大部分的運算效能。不是所有的應用都同樣重要,只要我們在這些關鍵應用上應用GPU實現大幅提速,就能極大的提升他們的效率。

  問:天河一號A在效能、效率、能耗方面相比上代都有了大幅提升,這背後主要是在哪些方面進行了改進?

  楊燦群:天河1A這一代系統的實際效能、計算效率大幅度的提高,主要有幾個方面的原因,包括自主研發的新高速網路系統,軟體優化後提升了應用效率,以及NVIDIA Tesla平行計算GPU的加入。

  問:天河一號A如今已經是全球最快超級計算機,為了保持這種優勢,我們未來需要有怎樣的努力和創新?NVIDIA未來將對中國的超級計算機發展提供怎樣的支援?

  劉光明:中國的高效能運算機發展經歷了30多年的歷程,從1978年的銀河1開始,一直到現在的天河一號A。這些努力並不是為了爭得一個世界第幾的排名,確確實實是我們國家急需這樣的高效能運算能力。作為天河來講,在突破千萬億次大關的過程中,遇到了世界性的難題。從2005年到2007年,我們一直在進行研究,最終決定採用異構架構,即通用處理器和專用加速處理器結合的方式突破這一難題。這中間我們試驗過自己的軍用流處理器FT100,去年也嘗試過AMD的GPU,最後發現了NVIDIA的晶片效能更好。

  這裡大家需要注意一點,高效能運算機能夠做出來,做出Linpack測試到世界第一,並不等於能夠在實際應用中用好。這是兩個問題,如何在異構結構下有效的程式設計是下一個大的挑戰。我們有一個專門的團隊從幾年前就在開展這項工作,現在已經得到了不錯的成績,但未來還有很多的任務要做。

  黃仁勳:劉博士說的很對,平行計算面臨的困難非常多,但正確解決這些困難帶來的效益也非常可觀。整個行業過去30年都在努力想要解決平行計算的難題,卻幾乎沒有一家得到成功。直到CUDA的出現,我們終於找到了CPU+GPU的異構計算模式。這項革命性的技術花費了NVIDIA公司多年的時間和數十億美元的投資。NVIDIA在平行計算領域的投資超過世界上任何一家企業。因為CUDA,平行計算現在有一個非常光明的前景。不過,在這一領域我們仍然面臨著非常多的挑戰。未來,我們將更加緊密的同劉博士的團隊合作,創造下一臺更強的超級計算機系統。

  中國已經認識到超級計算機對未來各個領域的重要性,NVIDIA非常榮幸能夠在中國的超級計算機發展中提供自己的支援。世界現在已經越來越小,科技領域的發展能夠讓全世界每一個人受益,中國超級計算機的進步實際上可以造福整個人類。我們將提供自己最出色的工程師來幫助中國建造更高速的超級計算機,幫助他們更有效的進行平行計算程式設計,並在中國的所有高校普及平行計算教育。我相信,未來每一個從高校畢業的計算機技術人員都將必備平行計算知識。序列計算是過去式,平行計算才代表了未來

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/22785983/viewspace-682764/,如需轉載,請註明出處,否則將追究法律責任。

相關文章