儲存新圖譜:DNA儲存的邊界與天地

naojiti發表於2022-02-22

數字資訊時代,無論是生產資料的各大視訊網站、應用平臺等,還是消費者們使用的各類電子裝置,都無不在時時刻刻產生資料。

拿自動駕駛舉例來說,平均每輛自動駕駛車每天產生的資料量高達10TB。根據IDC機構的預測,2020年到2025年間,全球生成的資料(包括新資料和副本資料)量預計複合年增長率為23%,到2025年達到180ZB,每天幾乎產生490EB的資料。

資料也成為繼土地、勞動力、資本、技術之後的第五種生產要素,所有基於資料的挖掘和增值都離不開儲存。儲存成為資料應用的基礎,其儲存方式也隨著資料量的激增與需求不斷髮生變化。在資訊與技術的不斷髮展演進中,儲存開始面臨不少的挑戰。

儲存裝置、介質(磁性材料和半導體材料)隨時間的老化與更新不及時,儲存維護成本高,儲存密度的侷限以及能源功耗大等。這些現實的困境驅動業界開始尋找更好的替代方案,滿足不斷增高的效能、低功耗、穩定性等需求。

DNA儲存成為基礎的新儲存技術被作為優先的研究方向,以解決資料儲存中存在的負荷與問題。我們經常會在新聞中看到,考古學家通過什麼DNA測定,瞭解到幾百年、幾千年的資訊。據悉,在合適的條件下,DNA可以持續存在數十萬年,甚至幾百萬年。

不考慮DNA的其他儲存特性,僅僅憑藉著恆久的儲存時間,我們的資料也有可能成為和“化石”一樣的存在,這個特性就十分值得我們長久地下功夫去研究與投資。當然,DNA儲存的優勢不止如此。

儲存效率的千倍提升

DNA儲存簡單來說,原理就是將DNA分子中的鹼基序列與儲存資訊編碼一一對應,將文字、圖片、聲音等資訊轉化為DNA序列進行儲存。這是一門需要多學科交叉的高精尖技術,涉及生物、計算機、化學等學科。

在生物分子中儲存資訊,非常複雜。科學家們將目光與精力投入到DNA儲存的領域,最根本的原因是看重其極高的儲存密度特性。據悉,1克DNA即可儲存215PB的資訊,而硬碟的儲存量不過幾TB。要知道,1PB=1024TB=1024X1024GB,按照高清電影每部10GB算,1克DNA能夠儲存2.2億部電影。與此同時DNA儲存的維護成本也相較資料中心低很多。在能耗方面,1GB的資料硬碟儲存能耗約為0.04W,而DNA儲存的能耗則遠遠小於硬碟儲存能耗,可忽略不計。

在資料量日漸激增的資訊時代,高儲存密度,低成本維護與低能耗儲存資訊的方式,使得科研機構與資本都將精力與金錢押碼在這個可能成為未來主流儲存方式。不過雖然有資金與科研的投入,但其進展仍較為緩慢。我們能在公開渠道中看到的成果都是實驗室的最佳成績。例如2012年,哈佛大學研究人員用DNA儲存了一本五萬字的圖書。歐洲生物資訊研究所在DNA儲存了莎士比亞的十四行詩以及馬丁·路德·金的演講《我有一個夢想》的錄音帶。

從上世紀50年代提出,DNA的資料儲存研究的進展一直緩慢,沒有什麼較為重大的變化。不過在近兩年,DNA儲存的技術開始有了一些新的進展。近日微軟研究院對外宣稱,研究出新的分子控制器,使得DNA的儲存寫入的速度相較以往提高了1000倍。微軟研究院作為DNA資料儲存的早期入局者,2015年開始進行相關研究,直到2019年才有研發進展,到如今速率千倍的升級,還是著實下了一番功夫。

與此同時,國內的東南大學生物科學與醫學工程的劉巨集團隊也實現了DNA儲存的新突破:立足自主開發實現了DNA合成與測序環節的一體化,儀器裝置也實現了小型化。DNA儲存在國外的技術路線大都是儲存的合成與測序環節分開進行,需要大型的儀器裝置,操作也相對複雜一些。劉巨集團隊將儀器裝置等朝著行動式改進了許多。

佐治亞理工學院(GTRI)近期也公佈了新進展,他們的團隊設計了一種微晶片,可以顯著提高以DNA形式寫入資料的速度。該團隊預計將比當前的DNA儲存技術提高100倍。

研究機構的各種進展也使得嗅覺靈敏的投資機構風聞而來,中科碳元(深圳)、密碼子(杭州)等創業公司獲得數千萬的天使輪融資。

而政策方面,DNA儲存已經成為國家層面部署的重點發展方向。國家“十四五”規劃中提到要加快佈局量子計算、量子通訊、神經晶片、DNA儲存等前沿技術。我們可以看到,DNA儲存在政策、資本與技術的集中發力中開始蓄勢待發,不過對於這類高精尖的技術來說,距離其真正的商業化落地程式還尚早。

難以突破的結構性障礙

雖然DNA儲存具有較為明顯突出的優勢,政策、資本等也在全方位的支援,應用的前景廣闊,但商業化的進展仍然十分緩慢。其最大屏障來自於其儲存技術本身。

為了便於理解DNA儲存的面臨的技術困境,我們簡單介紹一下DNA儲存資料的過程。主要分為以下五個步驟:編碼——將數字資訊編碼為DNA序列;合成——將序列融入實際的DNA分子;儲存——將合成的DNA片段儲存在載體或細胞中;訪問——檢索和選擇性讀取序列資訊;解碼——將測定的序列資訊轉換回數字資訊。

在整個儲存的過程中,編碼與合成是DNA儲存中較為關鍵和困難的環節。尤其是DNA的合成過程最為艱辛,在鹼基序列融入DNA分子的過程中,很容易隨機損失掉合成的DNA。

而編碼是DNA儲存中成本與難度較大的環節,不過隨著AI、奈米微孔等技術的發展,編碼環節的難度與成本都開始逐漸降低。

DNA儲存的合成過程使得資料輸入和讀取的效率無法提上去,花費的時間較長、成本較高。據佐治亞理工學院2021年12月披露的資訊稱,DNA儲存速度提升到了每天寫入20GB資料,這是目前已知DNA儲存最快的寫入速度,而目前固態硬碟的讀寫速度最快大約為每秒500MB。

成本方面,2017年哥倫比亞大學的實驗顯示,合成2MB的DNA資料需要7000美元,而讀取資料需要2000美元,如果使用者需要以DNA形式儲存1GB的電影,編碼大約需要花費358萬美元,而讀取資料還需要102萬美元。DNA儲存技術的讀寫速度與成本,大大制約了其規模商業化的發展。

另外一個較大的影響因素跟科研人才相關,由於DNA儲存技術領域的強學科交叉性,必須依靠計算機、生物、化學、數學等多個相關學科的協同,這也就對科研人才的複合能力水平要求較高。

當然除了技術的進階、人才的需求以外,儲存的行動式要求也是其較為重要的發展方向需求。對於這類高精尖技術的裝置,傳統的裝置都較為笨重,行動式的優化也困難重重。總的來說,DNA儲存的各個環節都有較多的難關需要克服,DNA儲存真正意義上的走入商業市場,進一步發展成為主流的儲存裝置,還需要長時間的沉澱,才能讓DNA儲存技術有實質的進階。

終極儲存:深空與亙古

對於資料的儲存來說,多元化、智慧化、綠色化是其主要的發展風向標,尤其是綠色的資料中心是主推的發展方向。

據研究機構預測,若能源利用效率得不到持續提高,資料儲存用電量到2030年可能增長到全球用電總量的3%至13%。資料儲存的能源功耗令人擔憂,降低能耗將成為資料中心建設的首要目標,儲存裝置作為資料中心中最為耗能的裝置,成為革新的排頭兵。

目前改進常見的思路是從儲存裝置的硬體層面進行考量,如架構設計、晶片、硬碟介質等。而DNA儲存可謂是儲存的終極進化方向。據悉,麻省理工學院生物工程教授MarkBathe稱,理論上,一個裝滿DNA的咖啡杯就可以儲存世界上所有的資料。如果未來可以實現,DNA儲存一定會革新儲存領域的格局。

在生物科技領域,近年來因為人工智慧技術的飛速發展,一些生物科技和人工智慧交融的方面,例如蛋白質的結構預測、新藥的研發、製備都有了質的飛躍。DNA儲存在AI技術的加持下,其編碼的環節效率也獲得了極大地提升。未來隨著奈米技術與AI技術的加持,DNA儲存的技術也會一步步解除智識的限制禁錮,逐步升級,為儲存領域帶來質的飛躍。

當然DNA儲存除了資料的儲存外,也有一些新應用方向的可能。比如,可以把個人健康歷史資料儲存進DNA,這種儲存方法與人體更相容,醫生可以隨時的呼叫參考這些病例資料,更加精準全面地進行治療,改善病患的健康情況,甚至促進壽命的增加。

未來人類深空宇航飛行的時候,可以用DNA儲存資訊,只要製備適宜的儲存條件,這些訊息就會留存,向宇宙深處傳播;也可能存在這種情形,新人類在考古的時候,發掘出我們儲存在DNA的彩蛋,DNA的資料展開是一部先輩留存的文明與技術訊息,訴說著我們的輝煌與經驗,感覺有種終極的浪漫。我們最後要留下什麼傳承,如何實現這個技術,這個終極的儲存進化值得我們去研究與等待。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31561483/viewspace-2857030/,如需轉載,請註明出處,否則將追究法律責任。

相關文章