讓DNA說Hello!微軟成功研製用DNA儲存讀取資料的全自動系統

大資料文摘發表於2019-04-03

讓DNA說Hello!微軟成功研製用DNA儲存讀取資料的全自動系統

大資料文摘出品

來源:微軟

編譯:林安安、夏雅薇、周素雲

現代儲存技術已經無法滿足位元組的海嘯式增長,但是大自然也許已為這個難題提供瞭解決方案。

比如,DNA。

上個月,來自微軟和華盛頓大學的研究人員宣佈:以人工合成為DNA為載體的儲存和讀取資料的全自動系統研製成功,邁出了該技術從研究實驗室走進商業應用關鍵的一步。

在一次概念驗證測試中,該研究團隊成功地在人工合成的DNA片段中編碼了“hello”一詞,並使用全自動端到端系統將其轉換回數字資料。

其實早在2016年7月,微軟和華盛頓大學的研究人員就已經宣佈,利用DNA儲存技術完成了約200MB資料的儲存,相對於當時最大儲存為739KB的EBI檔案來說已經實現了資訊儲存了飛躍。

該研究聲稱,如果資訊封裝密度像大腸桿菌的基因那麼高,全世界的儲存需求可用1千克的DNA來滿足。

這一結果釋出在當年9月份的《自然(Nature)》雜誌上

讓DNA說Hello!微軟成功研製用DNA儲存讀取資料的全自動系統

兩年多的時間過去了,微軟和華盛頓大學的研究人員又取得了新突破:不僅儲存量翻了5倍——能夠在DNA中儲存1000MB的資料,還實現了從儲存到提取資訊的重大突破。也就是說,用DNA儲存資料已經成為可能。

該研究結果發表在一篇名為《DNA自動儲存端到端自動化演示》的論文中,並於3月21日出版在Nature Scientific Reports版塊。

讓DNA說Hello!微軟成功研製用DNA儲存讀取資料的全自動系統

論文連結:

https://www.nature.com/articles/s41598-019-41228-8

人工合成DNA儲存

DNA儲存數字資訊的空間比目前建造的資料中心要小好幾個數量級。我們每天都在產生海量資料,從商業資訊到可愛的動物視訊再到醫學掃描影像和外太空影像,因此DNA非常適合用來儲存大規模的資料。

微軟首席研究員Karin Strauss稱:“我們的最終目標是將一個全自動系統投入到實際應用。對終端使用者來說,這類似於雲端儲存服務——將資料上傳到資料中心並儲存在那裡,使用者隨時可以檢視並下載雲端資料。要做到這一點,我們首先需要從自動化角度證明這是可用的。”

讓DNA說Hello!微軟成功研製用DNA儲存讀取資料的全自動系統

華盛頓大學的高階研究科學家Chris Takahashi說:“資訊儲存在人工合成的DNA分子中(而不是人類或其它生物的DNA分子),並且可以在傳送到系統之前進行加密。 雖然這個過程的關鍵部分可以由DNA合成器和DNA測序儀等機器完成,但到目前為止,許多中間步驟都需要在研究實驗室中進行人工操作,這在實際應用中是很難實現。”

 “總不能讓一群人帶著移液器(一種用於定量轉移液體的小型器具)在資料中心裡四處奔跑,而且移液器在使用過程中容易出現人為錯誤,成本也很高。”

從資訊儲存商業化的角度來看,人們需要降低合成DNA的成本,包括合成儲存資訊的DNA雙鏈和提取資訊的DNA測序。

自動化是DNA儲存商用關鍵

讓DNA說Hello!微軟成功研製用DNA儲存讀取資料的全自動系統

微軟的研究人員說,自動化是另一個關鍵因素,因為它可以實現商業級規模的儲存並極大降低成本。

現有的存檔技術在幾十年內將不再適用,而DNA儲存資訊的時間要比它長得多。比如說:DNA可以在猛獁象牙和原始人骨骼中存在數萬年。

值得強調的是,這還不是理想的儲存條件。DNA包含的遺傳密碼是通用的,也就是說自然界所有生物共用同一套遺傳密碼,基於此,理論上來說人類可以解讀所有生物的遺傳資訊。

DNA是由四個鹼基:腺嘌呤(A)、胸腺嘧啶(T)、胞嘧啶(C)和鳥嘌呤(G)構建而成的。微軟和華盛頓大學聯合開發了一套DNA資料自動儲存系統,將數字資料的1和0轉換為構成DNA的A、T、C和G,然後將其它必要反應液注入合成器,合成器就能合成DNA片段並將其推入儲存器。

讓DNA說Hello!微軟成功研製用DNA儲存讀取資料的全自動系統

將1和0 轉換成DNA的A、T、C、G

當系統需要檢索資訊時,它會新增其它化學物質來提取所需的DNA,並使用微流體泵將液體推入系統的其它部分。接著“讀取”DNA序列並將其轉換回計算機可以理解的資訊。

讓DNA說Hello!微軟成功研製用DNA儲存讀取資料的全自動系統

研究人員表示,研究專案的目標不是要證明系統能夠以多快的速度或多低的成本運作,而只是為了證明自動化是可行的。

DNA自動化儲存系統的一個直接好處是,它可以讓研究人員從繁複的實驗中掙脫出來,去解決更深層次的問題。

微軟研究員Bichlien Nguyen說:“自動化系統能進行重複性的工作,這使得人們能夠從更巨集觀的角度制定新策略,從根本上進行更快的創新。”

分子資訊系統實驗室的團隊已經證明DNA可以儲存寵物照片,文學作品,流行視訊和檔案資訊,並且在檢索資料的過程中不出錯。

研究人員還開發了一些技術來執行很有意義的計算任務——比如只搜尋包含蘋果或綠色自行車的影像,使用的是DNA分子本身,而不必將檔案轉換回數字格式。

華盛頓大學的Luis Ceze教授說:“我們肯定會看到一種新型計算機系統的誕生,人們可以使用DNA分子儲存資料,用電子裝置進行控制和處理。將DNA和計算機結合到一起為未來提供了無限的可能。”

人類的DNA儲存探索

人類對DNA資料儲存能力的探索早已有之。

1988年,藝術家喬•戴維斯與哈佛的學者合作,第一個將數字訊號0和1對應到DNA的四個鹼基。他們把DNA序列插入到大腸桿菌裡,僅僅編碼了35個位元組。當排列成一個5*7的矩陣時,1對應到暗畫素,0對應到亮畫素,它們組成了一幅古代日耳曼如尼字母圖畫,代表生命和女性的地球。

現在戴維斯已經加入了丘奇的實驗室,該實驗室2011年起開始探索DNA資料儲存。哈佛團隊希望該應用可以減少合成DNA的高成本,就像基因組學的測序成本已經降低了許多。丘奇與加州大學洛杉磯分校的瑟裡• 庫蘇里(Sri Kosuri)以及約翰•霍普金斯大學的基因組專家高原(Yuan Gao)於2011年11月實施了概念證明性實驗。

他們的團隊使用了很多短DNA片段編碼了一本丘奇與他人合寫的659KB資料的書。每個片段的一部分用來進行排序後片段組裝順序,剩餘部分用於編碼資料。將資料儲存在DNA之中需要將二進位制0和1資料轉換為4種核苷酸,其中0用腺苷酸或胞嘧啶來編碼,而1則用鳥苷酸或胸腺嘧啶。

這種靈活性幫助團隊設計序列,避免測序中高GC區讀取錯誤、重複序列或髮卡結構導致的繫結彼此的片段發生序列摺疊。他們沒有做嚴謹的糾錯,而是依靠每個片段擁有多個拷貝的資訊冗餘。結果對片段測序後,他們發現了22個錯誤,大大高於可靠儲存的要求。

同時在EBI,高德曼、伯尼和他們的同事也在使用很多DNA片段來編碼一個739KB的資料儲存,包含一個圖片、ASCII文字、聲音檔案和一個PDF版的華生和克里克標誌性的雙螺旋結構。為了避免重複鹼基和其他來源的錯誤,EBI領導的這個團隊使用了一個更加複雜的系統(見“製作儲存體”)。

一方面是將0和1組成的二進位制資料編碼修改成以3個數為基礎,即0,1和2,然後持續地輪換使用每一個數的代表,因此而避免在讀取資料時序列可能出現的問題。通過利用序列重疊,100個鹼基長度的片段持續位移25個鹼基,EBI的科學家們確保有4個版本的片段來做錯誤檢查和互相比較。

液體轉移DNA難點

讓DNA說Hello!微軟成功研製用DNA儲存讀取資料的全自動系統

與基於矽的計算系統不同,基於DNA的儲存和計算系統必須使用液體來轉移DNA分子。流體本質上與電子不同,這意味著我們需要全新的技術解決方案。

華盛頓大學的團隊與微軟正在合作開發一種可程式設計系統,利用電和水的特性在電極網格上移動水滴,從而實現實驗自動化。名為“Puddle”和“PurpleDrop”的一整套軟體和硬體可以混合、分離、加熱或冷卻不同的液體並按標準實驗步驟進行實驗。

MISL團隊下一步要做的是將簡單的端到端自動化系統與PurpleDrop等技術以及能夠使用DNA分子進行搜尋的技術相結合。研究人員專門設計了模組化的自動化系統,使其能夠隨著新的DNA技術的出現而發展。

相關報導:

https://news.microsoft.com/innovation-stories/hello-data-dna-storage/?utm_source=stories&utm_campaign=1385

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31562039/viewspace-2640306/,如需轉載,請註明出處,否則將追究法律責任。

相關文章