微軟研究院聯合華盛頓大學首次實現全自動DNA資料儲存

微軟研究院AI頭條發表於2019-04-10

編者按:隨著數字資訊的指數級增長,資料中心已經無法滿足越來越大的資料儲存需求,研究人員們正在探索DNA資料儲存及其大規模商用的可能性。日前,微軟研究院與美國華盛頓大學共同釋出了一項全新的突破——首次實現全自動的DNA資料儲存與提取過程。本文編譯自微軟英文部落格文章 “With a 'hello,' Microsoft and UW demonstrate first fully automated DNA data storage”。

微軟研究院聯合華盛頓大學首次實現全自動DNA資料儲存

我們生活在一個資訊化的時代,在全世界範圍內,數字資訊每時每刻都呈現出爆炸式的增長。為了滿足數字資訊儲存與使用的需要,企業通常將資料儲存在遍佈各地的大型商業資料中心,儘管如此,資料儲存需求與資料中心儲存能力之間的缺口正在日益擴大。

如果將等量的數字資訊記錄在DNA中,資訊儲存所佔用的空間將比現有的資料中心節省幾個數量級,而且無論是企業商業資料、醫學掃描影像,還是你在社交網路上雲吸貓時看到的可愛視訊,任意型別的資料都可以儲存在DNA上。因此,DNA資料儲存是一個極其富有價值的解決方案。

因此自2015年起,微軟研究院與華盛頓大學的研究人員合作開展了一項DNA資料儲存研究,希望將人造DNA變成耐用、易操作的高密度資訊儲存介質,以彌補龐大的儲存需求與儲存容量之間的缺口。這項研究的核心是在人造DNA中編碼和提取資料所涉及的演算法和分子計算技術,這些技術能把一個大型資料中心裡的全部資訊存到幾個骰子那麼小的迷你空間裡。

在2016年,研究團隊成功地將4個影象檔案資訊儲存到一段人造DNA片段上,並完好無損地將它們取了出來。前不久,這一團隊再度獲得了重量級的突破——首次實現了全自動的DNA資料儲存與提取。

全自動的DNA資料儲存


在這項實驗中,研究團隊開發的全自動的端到端系統,成功地在人造DNA片段中寫入了“hello”一詞,並毫髮無傷地將DNA上的資料轉換回了通用的數字資訊。關於這一系統的最新論文“Demonstration of End-to-End Automation of DNA Data Storage“已發表於3月21日的《自然科學報告》,在文末點選“閱讀原文”即可下載。

這項自動化技術,是讓DNA資料儲存得以走出實驗室,應用到商業資料中心的一個重要的里程碑。因為在此之前,在實驗室合成的DNA上儲存、讀取、甚至加密資料的過程中,雖然有合成器、測序儀等複雜裝置的幫助,仍有大量的中間步驟需要實驗人員手動操作,這使DNA資料儲存難以滿足在商業環境中執行的需要。“在商用場景裡,你不可能讓一群人來來回回為這些中間環節忙活,這樣不僅容易出現人為錯誤,而且成本高,佔地面積大。” 華盛頓大學電腦科學與工程學院資深研究科學家Chris Takahashi指出。

“因此我們要將整個過程自動化,來證明DNA資料儲存在商業環境中是切實可行的。”微軟首席研究員Karin Strauss說,“我們的最終目標,是讓自動DNA資料儲存系統得以投入生產,讓它的使用體驗和任何雲端儲存服務一樣快捷和便利。” 

除了儲存空間極小,自動化DNA儲存技術也能節省大量成本,在技術成熟後,價格將更加親民。在實驗成功後,自動化DNA儲存系統為研究人員提供了直接的便利,讓他們能將時間和精力放在探究更深入的問題上,而不用為中間環節的重複性工作花費大量時間。

DNA也比現有儲存技術的“保質期”更長。我們可以看到,在猛獁象牙和早期人類骨骼中,部分DNA歷經了數萬年的考驗,完好地留存了下來。

目前,要讓這項技術成為商用儲存解決方案,還必須降低兩大工序的成本,其一是DNA合成,也就是“定製”包含有意義的資訊序列的DNA鏈,其次是提取已儲存資訊的測序過程。目前研究人員正努力朝著這個方向邁進。

攻克自動化的關鍵難點    

如何自動化儲存和提取過程是這一研究專案的主要難點。研究人員表示,本次專案的主要目標是證明自動化的可行性,而不是證明系統能以多快的速度或多低廉的成本運轉。

自動化DNA資料儲存系統運用了由微軟和華盛頓大學聯合開發的軟體,在寫入過程中,能將資料中的“1”和“0”轉換為構成DNA 的A、T、C、G四種鹼基。隨後,系統會自動通過成本並不高的實驗室裝置,利用必要的液體和化學成分合成人造DNA片段,並將DNA置入儲存容器。

在提取DNA上的資料時,系統會先對DNA加入一些化學物質進行預處理,並用微型流體泵將液體匯入系統的其它部分,讀取DNA序列,並轉換回計算機可理解的語言。

經過實驗,研究團隊已經成功將貓咪照片、文學作品、流行視訊、檔案記錄等各種形式的資料儲存到DNA上,並在實驗環境中準確無誤地提取出這些檔案。目前他們已經能夠在DNA中儲存1千兆位元組的資料,相比他們此前200兆位元組的世界紀錄有了相當可觀的提高。

研究人員還對執行特定需求的計算進行了探索,比如在DNA中檢索和提取包含“蘋果”或“綠色自行車”的影象,且僅使用分子原形來完成計算,不將檔案轉換回通用數字格式。

與矽基計算系統不同,基於DNA的儲存和計算必須使用液體來移動分子,因此需要全新的工程解決方案。為此,微軟與華盛頓大學共同開發了一套可程式設計系統,利用電和水的特性讓極小的水滴在電極構成的網格上四處移動,由此實現了實驗過程的自動化。由開源軟體“Puddle”和硬體“PurpleDrop”組成的全棧可以混合、分離、加熱或冷卻不同液體。

在未來,研究團隊計劃將自動化系統與PurpleDrop、DNA搜尋等技術進行進一步的整合。他們還特意對自動化系統進行了模組化的設計,使之能夠隨時更新部件,隨著更多新DNA技術的湧現而不斷優化。這為後續工作提供了極大的靈活性。

“我們在見證一種全新計算機系統的誕生——用DNA分子儲存資料,並用電子裝置進行控制和處理。這二者的融合一定能為未來創造更多有趣的可能”,華盛頓大學計算機學院教授Luis Ceze表達了他對自動化DNA儲存技術的展望。

更多資訊請訪問

DNA Storage專案主頁:https://www.microsoft.com/en-us/research/project/dna-storage/

微流體自動化開源軟體“Puddle”與硬體“PurpleDrop”http://misl.cs.washington.edu/projects/puddle.html

相關文章