本講座選自清華-青島資料科學研究院大資料基礎設施研究中心特聘研究員劉運渠9月5日在Odaily星球日報 X 36Kr P.O.D大會上所做的題為《下一代資料網:資料驅動的雲網鏈一體化》的演講。
以下為演講視訊,建議在wifi環境下觀看
▼
以下是演講圖文實錄
▼
劉運渠:資料驅動的雲網鏈一體化,它潛在的商業場景,是把它作為一個基礎設施來提供。清華-青島資料科學研究院是一個多學科的交叉融合,與資料確權和安全多方計算的核心技術,來建立的資料分享平臺。它的目標是實現一個大資料自來水管道,做到一些資產服務和創新技術,最重要的目標是實現資料驅動。
現有的三大核心技術雲、網、鏈各自有一些缺點。資料協議方面,有資料孤島的問題,成本和靈活性的問題及資料確權和效率的問題,這是清華大學下一代資料網路試圖解決的問題,最主要的方法是通過區塊鏈技術的研究和產業化方面來做一些動作。
剛剛講了一些機構性的介紹,下面會深入到技術和產業細節裡面去。
什麼是這三大塊融為一體化,這是一個很大的野心。
我們能不能佔一個萬米的高空,看這三大技術的關係呢?我們看到機器學習的AI,它得益於大資料,同時它又為大資料提供了一個得力的工具。雲端計算,跟邊緣計算、霧計算一起,在不同的場景,有不同的需求。對於雲端計算來講,大的資料在需要計算力方面有一個彈性。當我需要算力的時候,我希望無窮大;當我不需要算力的時候,手機的CPU是閒著的,所以這是計算力共享的問題。
基礎設施試圖轉向以資料為中心的場景,大家已經比較熟悉一些CDN、NDN、ICN、DCN,本質是把網路從位元流轉向資料。我們認為未來的價值焦點,也就是從大資料視角來看,它不僅僅是資料隱私的問題,首先是資料的所有權。資料的隱私,首先資料是我的,你憑什麼拿去用,拿去用有沒有好處,這個好處是不是我應該得到。這才是我們認為下一階段大資料的核心問題。
從剛剛講的大資料和網路視角下,我們再看區塊鏈是什麼情況。
首先,我們認為區塊鏈技術可能具有實現資料確權的潛力。這裡引用一下谷歌董事長斯密特的說法,他認為區塊鏈技術最大的價值,就是實現的資料的稀缺性,也就是不可以篡改和隨便拷貝。為什麼稀缺性很重要?因為他是董事長,他關心經濟問題,沒有稀缺性就沒有經濟價值。
第二,我們認為區塊鏈技術跟大資料的結合,可能會出現萬億級的商業。
第三,區塊鏈技術尚未具有支撐大資料的能力,這是我們下一代資料網要解決的核心難題。
第四,區塊鏈對於網路本身也提出了巨大挑戰。區塊鏈在技術上有三大塊,一個是分散式共識,一個是加密,一個是基於P2P的廣播。P2P的廣播是廣播的一種,是基於點對點實現的。廣播對於網路來講是很可怕的東西,因為N到N遠遠大於1到1的量。如果有一個網路可以支撐完美的通訊的話,它需要什麼呢?它需要網路的有效載荷即有效排列組合可以達到N的N次方,而普通網路只有達到N的階層數字,這兩個數字差距非常的大。我們認為網路是區塊鏈規模應用的瓶頸之一,一方面它的商業價值備受關注,另一方面它的規模和實驗,成為關注的焦點。
今天有很多嘉賓在規模方面講得比較多,我集中精力講一下時延的問題。
第一,關係型資料庫系統是非常強悍的,它可以輕鬆達到千萬次的TPS。現有的系統,不要上千萬次,幾千次都不是那麼容易的事。成熟的系統需求也沒有那麼高,日常也就是2000次。沒有必要在這塊做無謂的追求,這方面我們趕不過關係型資料庫。
第二,交易的時延和頻寬是不一樣的東西。比如我烤匹薩10個小時,同時烤了10塊匹薩,我回頭跟人說,10個小時烤了10個披薩,平均時間1小時。這裡面是有誤導的。時延就是說,到底烤一塊匹薩多久,這對於實際應用很有價值。我們來看看它受到什麼限制呢?一些是我們看得見的,就是程式碼裡面可以看到,就是顯示限制,比如交易尺寸、快、平均大小。當像中本聰這樣世界級的設計者,他們設計的時候,是考慮後面的限制。演算法現在的研究可以達到100毫秒以下,我們網路也做到100毫秒以下,1+1等於200毫秒,再給以3倍的安全係數,目標可以到600毫秒。由於廣播的模型,會導致它的規模也不會很大,所以要解決這個問題,可能要通過一些分集,用聯盟鏈的方法來處理。
下一代的資料網路,它可以支援高速、海量區塊鏈吞吐。首先在廣域裡面部署一個服務,同時能夠支援毫秒級、亞秒級的交易,能夠實現規模化的區塊鏈應用。為什麼呢?因為我們在廣播裡面增加廣播代理,不要每個人都去廣播,這就是聯盟鏈的觀點。
這一塊清華大學希望我們能夠提供一些區塊鏈設施、平臺以及應用作為服務。而且區塊鏈在阿爾山的基礎區塊鏈專案裡面已經做了這樣的場景。這是清華區塊鏈現有的下一代資料網的設計方案及想要實現的目標。