星方案|StarFS加速生命科學研究
概述
生物學是一門研究生物的結構、功能、發生和發展規律的科學,也是和人們日常生活最為密切的學科。當今的生物學研究早已離不開計算機的幫助,蛋白質結構研究,藥物研究,生物資訊學等場景,高效能運算都發揮了不可替代的作用,幫助研究者更好的從事藥物設計、疫苗開發、處理基因資料,精準醫療研究等工作。
這裡我們以蛋白質研究為例,蛋白質研究是結構生物學中的一大研究領域。結構生物學通過研究生物大分子的結構與運動闡明生命現象的科學。藥物設計、疫苗開發和蛋白質分子效能改造等應用領域都以結構生物學的研究成果為基礎。主要採用三維重構程式完成研究:
表1常見的並行電鏡三維重構程式
上述軟體的計算需求可以歸納為:
1 | 主要為浮點計算,其中有大量的單精度FFT計算; |
2 | 軟體加速比接近線性,對網路依賴低; |
3 | 軟體記憶體需求和I/O需求較大,需要配置並行檔案系統; |
挑戰
針對上述生命科學領域計算軟體平行計算的特點,為了保證整個計算的效能和穩定性,對於儲存系統有以下的需求:
為什麼選擇StarFS?
出眾得效能
StarFS是一個效能為中心,圍繞簡單易用、易安裝以及易管理而設計的領先並行檔案系統。StarFS不斷地發展和持續優化贏得了廣大使用者地信賴。
圖1StarFS架構圖
面向高效能運算叢集儲存架構設計
針對高效能運算應用高併發的特點,採用帶外模式的大規模開放叢集儲存架構,通過高速網路將通用儲存伺服器中的CPU、記憶體、網路頻寬、磁碟轉速、匯流排效能整合在一起,形成一個高階儲存器,使得儲存總體效能高於計算處理能力與網路頻寬的傳輸速度,以此來遮蔽由於磁碟和匯流排效能提升緩慢造成的儲存效能瓶頸。我們將以全線速網路互連前端的計算節點和後端的儲存及後設資料節點,以保證儲存裝置的效能輸出達到最大化。由於採用帶外模式,很好的消除了後設資料通路與資料通路的相互干擾。而後設資料伺服器的叢集化和儲存伺服器的叢集化,使得整個系統中不存在像NAS或者SAN系統那樣的效能瓶頸點,因此能夠完全滿足高效能運算應用高併發的需求。
針對海量儲存需求的高可擴充套件技術
高效能運算應用除了高併發訪問的特點之外,海量資料儲存也是其重要特徵之一。從目前計算任務的需求以及未來發展趨勢看,相信不久的將來高效能運算平臺的儲存容量會不斷的擴大,從而達到幾十PB或者上百PB,那麼現有的儲存系統會不斷的擴充套件,為此,儲存系統的海量高可擴充套件技術對計算平臺非常重要,我們在StarFS線上無限制快速擴容以及負載均衡技術的基礎上研製高可擴充套件儲存技術,使得儲存系統的規模能夠隨著計算應用的發展而高效、無需中斷服務的線上擴充套件,同時達到隨著容量的增加效能的線性增長。
面向高效能運算的位元組粒度鎖
普通的本地檔案系統只提供檔案粒度的鎖,檔案粒度的鎖在檔案這一級別上限制了併發,導致很多隻是修改檔案不同部分的程式或者執行緒也不能同時修改。而在很多高效能運算應用場景中,檔案粒度鎖限制了高併發,因為很多場景只是修改檔案的一個部分,修改檔案不同部分之間的程式或者執行緒理論上是可以同時進行的,但是檔案粒度鎖無法有效解決。
為了可以在檔案內部可以進行併發讀寫,StarFS並行檔案系統系統提供了位元組粒度鎖。這樣加鎖的粒度能夠達到位元組,修改同一個檔案不同部分就可以並行執行,從而提高了同一個檔案的IO效能,這在高效能運算應用場景中會非常有用。
面向多使用者環境的增強型許可權管理技術
服務生命科學研究的IT平臺是一個多使用者共享平臺,每天都有很多使用者在計算平臺上面執行不同的任務,整個儲存系統需要保證各個使用者之間的任務相互獨立、資料安全高可用,因此,傳統的基於作業系統使用者許可權的管理技術無法完全滿足計算平臺的需求。在新研製的儲存系統中擬提供增強型許可權管理技術,除了相容原有基於作業系統使用者的許可權管理之外,還增加了自身所特有的增強型許可權管理技術,通過儲存系統的後端管理平臺直接為某個目錄指定哪些使用者、或者哪些應用伺服器能夠訪問,哪些目錄禁止使用者刪除、修改等。
相關文章
- 北鯤雲超算平臺如何加速生命科學研究
- SOLIDWORKS生命科學解決方案Solid
- 北鯤雲超算:以HPC解決方案助力生命科學領域研究發展
- 生物通:2018生命科學研究生調查
- 中國科協生命科學學會聯合體:中國生命科學十大進展
- 解決生命科學研究痛點,北鯤雲端計算著力打造行業解決方案行業
- 雲端計算重塑生命科學行業,北鯤雲加速生物製藥企業轉型行業
- 資料科學的原理與技巧 一、資料科學的生命週期資料科學
- iot 對接科星
- 華為雲與北京大學神經科學研究所達成合作,推動AI腦科學研究AI
- 中國科學院:2022年研究前沿
- 嵌入TRIZ的現代科學研究模式模式
- 北鯤雲超算平臺如何為生命科學研究提供資料歸檔與儲存服務?
- 技術加持、服務先行:北鯤雲超算平臺助力生命科學領域研究與發展
- 使用知識圖解開生命科學資料挑戰圖解
- 虛擬現實、生命科學、科學計算對人類生活的影響都已逐步顯現
- 中國科學院:2023研究前沿報告
- 雲上有AI,讓地球科學研究更省力AI
- 北鯤雲助力生命科學,高效能運算突破屏障
- GitHub 星標 7K 的電腦科學速成課!Github
- 資料築基,西湖大學加速國際前沿學科研究
- 德勤諮詢:2020全球生命科學行業展望(附下載)行業
- 大檔案傳輸軟體——生命科學中的關鍵因素
- 國產光纖網路卡:助力院校科學研究
- 如何開始複雜性科學的研究? - systemsinnovation
- 艾瑞諮詢:2021年中國人工智慧+醫療與生命科學行業研究報告(附下載)人工智慧行業
- (資料科學學習手札138)使用sklearnex大幅加速scikit-learn運算資料科學
- 新「AI科學家」?MIT整合多智慧體,實現材料科學研究自動化AIMIT智慧體
- 科學實驗室走向全自動化,機器人融合AI,加速科學發現,Science子刊觀點機器人AI
- (資料科學學習手札150)基於dask對geopandas進行並行加速資料科學並行
- (資料科學學習手札86)全平臺支援的pandas運算加速神器資料科學
- 天美TA談“跨學科”:學科化精細研究對遊戲精品化的影響遊戲
- Nat Aging:科學家揭開加速脂肪組織衰老的新型機制
- 亞馬遜雲科技發力醫療與生命科學行業 圍繞資料、算力和體驗加速行業數字化創新亞馬遜行業
- Elasticsearch索引生命週期管理方案Elasticsearch索引
- 科學家研究發現這樣剝雞蛋最容易
- 科學研究發現“貓奴”分為5種型別型別
- 「機器學習之父」Mitchell 撰文:AI 如何加速科學發展,美國如何抓住機遇機器學習MITAI