[解密] DNA儲存技術究竟牛在哪裡?

架構師技術聯盟發表於2017-12-24

640?wx_fmt=png&wxfrom=5&wx_lazy=1


0?wx_fmt=gif&wxfrom=5&wx_lazy=1

      針對未來儲存密度市場,前期在文章“50TB ExaDrive SSD投入商用”和“HP憶阻器記憶體和IBM原子磁碟”中,分別介紹了大容量SSD憶阻SCM原子儲存技術,但今天給大家普及的是另外一種前衛技術——DNA儲存技


      DNA儲存則能提供極大密度,是未來大容量儲存較理想的介質,也是下一代冷儲存的替代品。從原理上來講,DNA儲存是通過DNA中G、T、A和C 4種鹼基代表二進位制資料(0、1、2和3),理論上1克DNA可存455EB資料。DNA儲存的讀取技術則是採用DNA測序技術實現,DNA測序技術發展迅速,效能每次可達960Gb,成本也很低,價效比已經接近商用;目前的難題在於DNA儲存的寫效能,當前寫效能每天只能達到Mb量級,極高寫成本使得離商用還有很長的路要走。


      由於DNA儲存還有很多技術難題需要攻克,DNA儲存目前還是原型概念驗證階段,主要是學術研究機構在從事,至少還需要5年時間才可能有DNA儲存商業產品應用,但從長期投入來看,微軟等廠商覺得是很有投入價值的,這很可能是未來儲存介質市場的切入點,DNA晶片技術、晶片電路設計測序合成技術結合將可能是繼原子儲存、SCM介質之後的下一個儲存技術熱點

 

      DNA儲存是將二進位制檔案通過編碼對映成DNA裡A、T、G和C鹼基序列,按序列順序通過人工合成技術形成長鏈DNA來儲存資料的方法成為DNA儲存技術,資料寫入即人工合成DNA資料讀取即DNA測序資料拷貝即DNA複製,利用DNA中鹼基序列編碼儲存二進位制資料具體例項如下所示。


0?wx_fmt=png 

      DNA儲存從架構上講,主要包括類似於儲存控制器的編解碼器、資料讀取寫入裝置和資料儲存裝置,從技術成熟度上講,DNA技術可以支援開發DNA儲存原型,但在成本和自動化等方面還面臨技術的挑戰。


0?wx_fmt=png


  • 編解碼器(儲存控制器)完成二進位制轉換為DNA鹼基序列(鹼基對A,T,G和C可對應0,1,2和3),對誤碼進行誤碼糾正、檔案索引的方法對效率影響大。

  • 寫入裝置(寫磁頭)通過DNA合成含有A、T、G和C的DNA資料鏈儲存資料,人工合成DNA。當前DNA合成技術已經可以按程式任意組合在DNA鏈條上加入鹼基,使得DNA寫入成為可能。

  • 存放裝置(磁碟櫃)實現DNA存放,單個細胞核23對染色體含30億對鹼基可存12Gb資料,1克DNA可儲存EB級資料。

  • 讀取裝置(讀磁頭) 實現DNA儲存的讀取,基於DNA測序(Sequencing)技術,目前最常用的測序方法是桑格測序法(Sangar)。


0?wx_fmt=png


      Sanger測序的原理是將測序DNA進行大量複製(PCR),將DNA分裝不同試管中,分別加入有剪下作用的染過色的雙脫氧核苷酸ddNTP,反覆PCR迴圈讓DNA複製,當遇到ddNTP複製斷裂,形成長短不一的DNA單鏈,加電出現電泳現象,短鏈DNA遊速快,長鏈遊速慢,形成長短排序,鐳射照相,形成排序光譜。

 

      DNA儲存優勢是顯然意見的,密度理論上1克DNA可儲存455EB資料量,DNA儲存時間也很長,在乾冷條件下,可保持100萬年以上,常溫下可保持2000年以上,常溫儲存能耗很低,基本不需要電力。但是技術挑戰也與之並存,儲存密度受到編碼效率、備份數量、分類索引等方面的制約,通常比理論密度低。

 

      DNA儲存編糾錯挑戰: 編碼糾錯的原則是避免重複,重複導致讀錯概率大,最常用的方法是加入驗證資訊。在解決誤碼問題上,微軟採用了三進位制編碼原理,在4個鹼基中,其中一個鹼基用作前一位指示,後三位用作0,1,2編碼。

 

      DNA儲存編索引挑戰: 目前比較流行的一種DNA儲存索引方法叫KV方式,針對檔案,以Key-Value的方法形成Key值,將Key值形成檔案頭DNA索引和地址,再將檔案內容和索引合成DNA。

 

      DNA儲存寫入合成挑戰: DNA合成過程是控制4種鹼基分別加入DNA合成片段中,將片段連結合成較大的片段的過程。DNA合成依然較困難,小片段合成可以在實驗室,但是大規模合成需要專門基因合成服務公司才能完成(如GeneArtTwist Biosicence)。

 

      DNA儲存拷貝技術: DNA複製通常採用成熟的PCR方法,該方法在1983年發明。大致過程是先將DNA雙鏈加熱分開,加入聚合酶、DNA引物和鹼基,DNA單鏈開始產生雙鏈實現DNA的複製。

 

      關於DNA儲存的技術研究和應用前景十分廣闊,當前主流方向聚焦在密度、儲存時間、低能耗等優點,DNA儲存的存取技術(合成和測序技術)得到了快速發展,如果能很好地解決成本效能問題,那麼在未來,會極大限度加速DNA儲存取代現有儲存的可能性和程式。


      DNA儲存在歸檔場景具備佔地小、能耗低、密度大的特點,美國國家圖書館、維基百科、Google有意願將資料備份在DNA儲存上;在軍事用途應用中,可以通過人體攜帶DNA資料有了DNA儲存技術,我們人體就是“雲硬碟”。在個人應用中,未來個人可以隨身攜帶超大容量的DNA USB資料盤。


      但歸根結底,DNA儲存商用很大程度依賴DNA合成技術和測序技術的發展,當前測序技術發展較快如Pacbio、Illumina等公司,DNA合成技術發展慢,需要較大的理論和技術突破才可能,在另一方面,這也可能導致未來商用的不確定性。

 

      DNA儲存技術如其他技術發展,DNA儲存技術的發展也離不開所處的生態環境,目前值得關注的生態圈領域主要包括,DNA晶片DNA合成技術DNA測序等。


      DNA晶片主要包括AffymetrixIllumina和Affymetrix公司,Affymetrix利用基因晶片,通過原位合成法,大規模生產DNA探針。Illumina和Affymetrix合作開發DNA探針晶片由於測序。DNA合成包括美國IDT美國、德國GeneART、中國華大基因和提供DNA合成服務的Twist公司和微軟合作。


      DNA儲存至今已有很多成功嘗試,哈弗大學George Church 在2012年首次650KB資料寫進DNA儲存;EMBL歐洲生物資訊實驗室2013年將20MB資料寫進DNA儲存;這些都是科研機構的嘗試,但在2016年7月,微軟研究院和華盛頓大學2016年釋出DNA儲存原型論文,並在同年7月將200MB的資料放入一段DNA中,引發極大關注,微軟釋出DNA儲存原型,並決定推進其商用。


0?wx_fmt=png


      這次試驗打破之前20MB的最高紀錄,釋出了新的Error-Correcting Code,適合DNA讀寫錯誤的糾正,同時對DNA資料可以隨機讀取。試驗的成功促使微軟加速推進DNA儲存商業應用的研究。


>>>推薦閱讀



溫馨提示:
請搜尋“ICT_Architect”“掃一掃”二維碼關注公眾號,點選原文連結獲取更多技術資料

640?wx_fmt=png

點選原文連結獲取技術資料

0?wx_fmt=gif

相關文章