星方案|StarFS加速生命科學研究

zhutucsdn發表於2020-10-30

概述

生物學是一門研究生物的結構、功能、發生和發展規律的科學,也是和人們日常生活最為密切的學科。當今的生物學研究早已離不開計算機的幫助,蛋白質結構研究,藥物研究,生物資訊學等場景,高效能運算都發揮了不可替代的作用,幫助研究者更好的從事藥物設計、疫苗開發、處理基因資料,精準醫療研究等工作。

這裡我們以蛋白質研究為例,蛋白質研究是結構生物學中的一大研究領域。結構生物學通過研究生物大分子的結構與運動闡明生命現象的科學。藥物設計、疫苗開發和蛋白質分子效能改造等應用領域都以結構生物學的研究成果為基礎。主要採用三維重構程式完成研究:

                                                                        表1常見的並行電鏡三維重構程式

上述軟體的計算需求可以歸納為:

1

主要為浮點計算,其中有大量的單精度FFT計算;

2

軟體加速比接近線性,對網路依賴低;

3

軟體記憶體需求和I/O需求較大,需要配置並行檔案系統;

挑戰

針對上述生命科學領域計算軟體平行計算的特點,為了保證整個計算的效能和穩定性,對於儲存系統有以下的需求:

 

                                                   為什麼選擇StarFS?

出眾得效能

StarFS是一個效能為中心,圍繞簡單易用、易安裝以及易管理而設計的領先並行檔案系統。StarFS不斷地發展和持續優化贏得了廣大使用者地信賴。

                                                                                   圖1StarFS架構圖

面向高效能運算叢集儲存架構設計

針對高效能運算應用高併發的特點,採用帶外模式的大規模開放叢集儲存架構,通過高速網路將通用儲存伺服器中的CPU、記憶體、網路頻寬、磁碟轉速、匯流排效能整合在一起,形成一個高階儲存器,使得儲存總體效能高於計算處理能力與網路頻寬的傳輸速度,以此來遮蔽由於磁碟和匯流排效能提升緩慢造成的儲存效能瓶頸。我們將以全線速網路互連前端的計算節點和後端的儲存及後設資料節點,以保證儲存裝置的效能輸出達到最大化。由於採用帶外模式,很好的消除了後設資料通路與資料通路的相互干擾。而後設資料伺服器的叢集化和儲存伺服器的叢集化,使得整個系統中不存在像NAS或者SAN系統那樣的效能瓶頸點,因此能夠完全滿足高效能運算應用高併發的需求。

針對海量儲存需求的高可擴充套件技術

高效能運算應用除了高併發訪問的特點之外,海量資料儲存也是其重要特徵之一。從目前計算任務的需求以及未來發展趨勢看,相信不久的將來高效能運算平臺的儲存容量會不斷的擴大,從而達到幾十PB或者上百PB,那麼現有的儲存系統會不斷的擴充套件,為此,儲存系統的海量高可擴充套件技術對計算平臺非常重要,我們在StarFS線上無限制快速擴容以及負載均衡技術的基礎上研製高可擴充套件儲存技術,使得儲存系統的規模能夠隨著計算應用的發展而高效、無需中斷服務的線上擴充套件,同時達到隨著容量的增加效能的線性增長。

 面向高效能運算的位元組粒度鎖

普通的本地檔案系統只提供檔案粒度的鎖,檔案粒度的鎖在檔案這一級別上限制了併發,導致很多隻是修改檔案不同部分的程式或者執行緒也不能同時修改。而在很多高效能運算應用場景中,檔案粒度鎖限制了高併發,因為很多場景只是修改檔案的一個部分,修改檔案不同部分之間的程式或者執行緒理論上是可以同時進行的,但是檔案粒度鎖無法有效解決。

為了可以在檔案內部可以進行併發讀寫,StarFS並行檔案系統系統提供了位元組粒度鎖。這樣加鎖的粒度能夠達到位元組,修改同一個檔案不同部分就可以並行執行,從而提高了同一個檔案的IO效能,這在高效能運算應用場景中會非常有用。

面向多使用者環境的增強型許可權管理技術

服務生命科學研究的IT平臺是一個多使用者共享平臺,每天都有很多使用者在計算平臺上面執行不同的任務,整個儲存系統需要保證各個使用者之間的任務相互獨立、資料安全高可用,因此,傳統的基於作業系統使用者許可權的管理技術無法完全滿足計算平臺的需求。在新研製的儲存系統中擬提供增強型許可權管理技術,除了相容原有基於作業系統使用者的許可權管理之外,還增加了自身所特有的增強型許可權管理技術,通過儲存系統的後端管理平臺直接為某個目錄指定哪些使用者、或者哪些應用伺服器能夠訪問,哪些目錄禁止使用者刪除、修改等。

相關文章