Alluxio CEO李浩源:構築資料流動的高速公路

Robinly發表於2018-12-05

Robin.ly 是一個全新的視訊內容平臺,旨在為廣大工程師和研究人員提高對商業、創業、投資和領導力的理解。本期是Robin.ly創始人Alex Ren採訪Alluxio 創始人,李浩源博士

以下為採訪實錄摘要:

Alex: 大家好,我是Alex Ren,是Robin.ly和TalentSeer的創始人。今天是我們Robin.ly Entrepreneurship Talk第二講,榮幸地邀請到了知名大資料初創公司Alluxio的創始人及CEO,李浩源博士來做分享。介紹一下Robin.ly,它是一個新的視訊內容平臺,主要目的是為了提高工程師和研究人員對於leadership,entrepreneurship和AI的理解。通過邀請知名投資人,創始人,AI領域的科學家學者,以及一些業內領袖分享他們的經歷,以此增進大家對於這些內容的理解。介紹一下李博士的背景:畢業於北大,康奈爾和UCBerkeley,獲得UC Berkeley計算機博士學位。他的導師之一Ion Stoica是Databricks的founding CEO;另外一位導師,Scott Shenker是IEEE的工程院院士,也是以前一家startup,Nicira的創始人,Nicira後來以12億美元被VMware收購。李博士是Tachyon和Spark Streaming系統的作者,也是Apache Spark的founding commiter。他曾經在Google和Conviva等公司從事過data mining相關工作。2015年李博士創立Alluxio時(那時公司名字是Techyon Nexus),獲得了巨大的關注,並得到了矽谷知名風投人Andreessen Horowitz將近$8 million的投資。最近幾年Alluxio獲得了長足的發展,目前開源社群也越來越大,是現在主流的一個開源社群。今天想請浩源來分享下他對於大資料,對於AI帶來的大資料的儲存和計算問題,以及創業過程的理解。首先表示感謝!先請浩源解釋一下Alluxio的定義,它的產品全稱是memory speed virtual distributed storage system。能否通俗地解釋下這是個什麼系統?

李浩源:很高興接受Alex的邀請來到這裡,跟一些工程師朋友和對創業有興趣的朋友做一些分享。回答一下問題:Alluxio系統,或者這個專案,是一個virtual distributed file system,翻譯成中文叫“虛擬分散式儲存系統”。這也是我當年博士專案以及博士論文的主題 。這個系統到底在幹什麼呢?為什麼做,motivation是什麼?從整個業界以及社會發展的角度看,未來的世界會是一個資料的時代。在一個資料的時代,最核心的價值本身在資料裡面,這是foundation。從這個角度出發,我們當時在探索什麼樣的技術會對這個時代產生最根本性的改變,或者最fundamental的驅動。經過分析整個生態系統環境,無非就是兩點——從巨集觀角度,是data-driven application,資料驅動的應用;另一個是儲存領域,怎麼樣來存資料。這兩個領域,一個是上層計算領域,一個是下層儲存領域。再回來看整個資料的life cycle,絕大部分時間是在儲存裡面。所以很自然而然的想法就是,在整個生態系統裡,儲存系統會有最大的戰略性意義和重要性 。

這是我們最開始的想法。但之後發現有問題。回顧過去40年的儲存系統發展,基於硬體的發展以及演算法的發展和架構的發展,每隔3-8年都會有新一代儲存系統產生。從使用者的角度看,使用者會有很多儲存,或者是同一個儲存很多部署在自己的環境裡面,所以整個資料的儲存環境非常分散和混亂。而在資料時代,資料本身非常有價值,但前提是要管理好,利用好這些資料,但目前儲存領域沒有人能做好。因此我們做了這套系統,這個系統在計算和儲存之間,可以為使用者管理所有儲存在不同儲存系統裡的資料。叫“虛擬化”,是因為我們不去真正儲存,但是替使用者去管理。在構建這個平臺的過程中,我們起到了一個enabler的作用,在不同的儲存裡面管理所有資料。所以使用者使用時,可能有HDFS,可能有EMC的儲存,也可能有云儲存,比如美國的亞馬遜微軟,國內的阿里巴巴,華為等。但是無論它用什麼儲存,這個virtual distributed file system都可以把資料虛擬化,讓上層很有效地使用,訪問和管理資料。

Alex您講到了上層,你們的上層是什麼?有哪些公司在跟你們合作上層系統?

李浩源:從巨集觀角度講是data-driven applications。這個概念很廣,現在有不同的sector。比如最開始時,這個sector只是大家今天叫的big data analytics,比如Hadoop vendors,MapR,Cloudera,Hortonworks這種公司,這是第一批的data-driven application公司。之後第二批被稱作IoT,或者是machine learning 公司;這些公司去構建機器學習的應用,或者是物聯網的應用,最根本在於分析資料。無論是什麼應用,只要是以資料驅動的應用——這是第二個和第三個sector。前瞻的話,以後隨著無人駕駛,5G的出現,無人駕駛汽車本身就是一個小的data center,並且跟終端的大資料中心會有很大的頻寬。所以它本身需要很大的資料互動量,這本身又是一個新的workload,未來的workload。我用這幾個例子來說明workload的趨勢,以前,新興以及未來的型別。現在很多workloads,有早期的像MapReduce,Spark,還有之後的Hive,以及又出現的Presto,TensorFlow,Caffe等。因為我們是開源軟體公司,很多網際網路上都有這些案例;針對可以讀中文的developer,我們推出了中文微信公眾號,分享了很多中文案例。

Alex: 您提到了一些AI這方面的應用,在你們創立公司之後,也就是2015年之後,AI開始熱度漸長,深度學習對資料的依賴越來越大,對儲存和計算資源的要求越來越高;您怎麼看AI這波潮流對做資料儲存業務公司的挑戰?你們的解決方案是?

李浩源:無論是現在的AI潮流,以前的大資料潮流,IoT的潮流,以後新的潮流,我們認為總體的業界方向都是資料驅動。資料本身——今天大家叫business critical——對商業產生了很大的價值;到下一階段,可能有幾十年的時間,但是下一個階段主題是life critical,現在已經可以看到一些life critical的應用,比如自動駕駛,如果資料系統不work,就會危及生命。一個實際的案例是去年在舊金山的一個使用者,他們是一家大約1000人左右做基因分析的startup公司Guardant Health, 他們用我們的軟體分析癌症患者的基因,之後把原來需要四周的分析時間變成了兩週。看起來似乎只差了一倍的時間,但是從癌症病人的角度看是生與死的區別。所以慢慢地資料應用會從business critical變成life critical。

Some base curve大家都很清楚,從今天的fraud detection,到risk management,e-commerce,廣告推薦系統,產品推薦系統——做得越好,利潤越高。這就是business critical,以後就是life critical,這是核心,是整個應用的走向。只要應用是資料驅動的應用,就需要大量的資料。而從一般情況看,資料越實時,越好管理,利用的效率越高,應用的結果越好。這裡會涉及到底層資料的管理,如何有效訪問資料,如何節省開銷,如何使想使用資料的應用更容易地更實時地使用到資料。而不是另一種方式——在使用者使用我們產品之前,有很多資料在另外一個儲存系統裡。應用的developer需要用某個資料,需要把資料導到一個新的儲存裡,這個過程可能要花費幾周甚至幾個月的時間。我們的系統可以使developer馬上用上資料,這就是質的區別。同樣兩家公司,假設都是financial service行業,資料使用速度不同,競爭力就完全不同。就好像兩個國家,一個有高速公路網,一個沒有,兩個國家同樣可以擁有奧迪,賓士等汽車,但沒有高速公路網的話,汽車跑得再快還是受到極大的速度限制。

Alex: 能否介紹下你們的solution有什麼特點

李浩源:整個資料領域的興起大概是18年前,2001-2002年的時候。當時主要是幾家網際網路公司發現了這個領域的價值所在,提出大資料這一概念。很多人當時也看到了這個需求,認識到做資料平臺的機會,但是絕大部分市場上已有的廠商解決問題的思路是做一個更好的儲存系統。拿Hadoop vender這個大資料的廠商為例,今年可能已經改變了他們的message——但是5年前,10年前,談到類似的問題,它的解決辦法就是做一個非常好的儲存,很便宜且容易使用,然後告訴整個業界:既然我的儲存這麼好,你們應該把所有的資料都移到我的儲存裡面。然而它忽視了整個儲存行業的發展規律,每3-8年都會有一個trend——基於硬體發展以及架構革新的前進,總會有更好的儲存系統出現。今天是雲端儲存,或者叫物件導向的儲存(object store),取代8-10年前流行的大資料儲存HDFS。 

我們提出的這個概念是,不想做一個更好的馬車,而是做一個汽車。將最根本的要做的事情進行了替換——不再做傳統的儲存,而是虛擬的儲存。同樣的philosophy也被用在了不同的領域。我博士論文做的Alluxio的概念叫VDFS,virtual distributed file system。這是拿PC時代發展舉的例子。比如,現在我們用ipad或者任何pad,無非是為了發郵件,辦公,看電影,玩遊戲;並不需要關心郵件系統底下到底是如何設計的,也不需要關心ipad裡面的CPU是誰產的。

從資料時代來看,這些應用以及應用的人關心的就是兩件事情:第一,要把一個資料放進去,第二,晚些時候要讀資料時候能讀出來,在這個前提下,讓剩下的事情儘量簡單高效。這就是最核心的額內容也是我們正在做的事情。

Alex: 我看到你們有一個目標叫unified data at memory speed強調的是memory speed。能否從技術角度解釋一下這意味著什麼為什麼一定要做到這個memory speed

李浩源unified data,可以把所有的資料整合起來;memory speed是業界硬體技術的一個發展趨勢。這裡有兩個趨勢,其一是儲存計算分離,在計算端和計算叢集有很多memory資源,記憶體資源,SSD資源以及硬碟資源。如何有效地管理這些資源,這就是我們做的事情——儲存計算分離。另外一個趨勢是,在計算端,快取,DRAM,或者是3D Xpoint以及NVMe這些新型的快取技術的容量持續以指數級的方式上漲。對於大部分的應用案例,大家會發現最重要的資料量在計算端,快取以及記憶體資源已經有足夠能力來處理了。這個趨勢會越來越明顯。所以如何設計系統架構去儘可能地利用這個趨勢,非常重要。我們在設計系統的第一天,整個架構就是按照以上的趨勢進行的設計,因為我們相信這就是未來的大方向。

Alex我們來看看您之前的創業經歷。UC BerkeleyAMPLab享有盛譽,除了很多知

名的開源產品,如Apache MesosSparkDatabricks這樣的公司。您在讀博士期間確定研究方向後,找到了這個痛點就做了現在的公司,這中間您有一個transition——從技術領域transit到了一個founder的角色。作為founder您就要開始關注一些商業模式和市場需求。這是一個什麼樣的過程,有些什麼樣的心得?

李浩源:一方面這是一個transition,另外一方面其實我也有一定的準備。從個人角度看,我對企業級軟體比較有興趣,也希望這種系統的創新可以被應用到不同的領域去power這種重要的infrastructure——這屬於個人興趣。基於這種興趣,在去Berkeley之前,我在一個做enterprise software的start up Conviva工作過一段時間。做enterprise software的公司和做comsumer product 的公司有一些差別,因為很多時候comsumer company自己也是客戶,可以從自己的角度去理解和思考。但是enterprise很多時候是面向企業,要專門去企業瞭解。所以在去Berkeley之前,我也利用了這個機會,這家公司除了做軟體工程師外,也給了我很多機會去了解enterprise software,如何做enterprise software。

因此在我開始讀博士以前,腦海裡就有了大概的方向——要做資料,儘量和儲存相關,並且在Berkeley期間慢慢找到了最終的方向。所以整個過程都對創業有一些準備和思考。在博士畢業前開始創立這家公司時,還是很不同——做公司,做專案和博士發論文字身就截然不同,會涉及到不同的挑戰。

Alex我在跟您的溝通中發現您對技術痛點研究得比較深入,這個就是普通情況下founder需要做的事情。你要關注整個市場趨勢是什麼,技術能解決什麼痛點。這也說明您讀博時就已經有很強的目的性了。

李浩源:對。還有一個是當時實驗室的優勢,有兩方面原因——其一是實驗室的老師們給了博士生很大的空間和很多機會,如果學生想往一個方向走的話,你可以自己決定想走的方向。其二,整個實驗室的架構非常有利於產業界和學術界的結合。當時這間實驗室除了正常的自然科學基金資助以外,還有超過一半的資金來自業界,大約在矽谷數得上名字的技術公司都是這家實驗室的贊助商。所以每年有固定兩次每次三天,和業界進行集中交流的時間。作為博士生,實驗室的研究人員,有機會去向業界展示階段性的研究成果,他們也會給你一些意見和建議。這麼一個feedback loop是一個非常有優勢的點。這種關係也方便了學生在六天以外跟一些不同的公司有很大程度的交流。我記得早期的時候,我們這個專案有幾十次presentation,有充分地與業界公司裡權威的技術人員進行交流的機會。

Alex另外我也想到,您的導師是比較知名的成功的創業者,在學術上和創業上都做得比較成功難能可貴。您從他們身上學到了什麼東西?

李浩源:因為我有兩個導師,他們每個人都不一樣。兩個人都非常厲害。在博士期間可以有這兩個導師是我的幸運。這兩個人從外界的角度來講都屬於功成名就了,無論是在學術界還是產業界。最重要的是他們都非常努力,即使在這個人生階段還是毫不鬆懈,他們的努力程度不亞於任何一個實驗室裡的博士生,非常讓人驚訝。另外一個就是他們對學術和產業技術方向的觀點和看法非常深入。從我的角度看,他們在自己各自的領域都是世界上最傑出的任務。所以很多時候你思考的問題是如何從根本上來推動一個領域向前發展,非常有意思。從這方面看,去嘗試,做一點比較基礎性的創新很有意義,這也是我跟他們學到的一點。

Alex: 那您在創業生涯中,對哪些能力或者素質比較關注?比如說soft skills,還是presentation,溝通能力?

李浩源:剛才的這些skill都很重要,我自身也需要一直提高這些技能,而且這些技能不要等到做公司那天再去學。從我個人經歷看,最開始做開源軟體,公司成立之前大約有五六十人,有二三十家公司,需要很多溝通,就需要對一些presentation和softskill進行提升。當然公司在發展的不同階段也一直需要提高這些技能。做不做公司是要看一個人要走的方向,但無論是否做公司這些技能的提高都很必要。

Alex:我想這個對你們來講可能尤其重要,因為你們不只做這個公司,而且還有個開源的社群。本身開源社群的架構和技術的推廣就是你們的責任。

李浩源:對。從另外一個角度講,這不是一個人的事情。我覺得我比較幸運的是我們公司有很多非常厲害的人,比如說現在有一個副總裁是專門負責開源社群的成長。也有副總裁是專門做產品,專門做營銷。負責社群的人會有day-to-day的跟社群人員溝通,當然會有各種各樣溝通上的問題,不過可以隨時解決。那最重要的是有一個好的團隊,架構設好了,有一個好的團隊,在這種情況下會是很好的經歷。

Alex:您提到了開源社群——我想您經常會出現兩個身份,一個是創始人,一個是開源社群的維護者。您怎麼去平衡這兩個角色?

李浩源:說實話,比較難平衡。從創始人的角度看,很多時候要考慮一個技術遠景。從公司CEO的角度看,有很多的日常運營以及代理公司的問題,這兩個角色稍微有點區別。在開源社群這邊,由於我們有一個很不錯的團隊,所以社群方面的日常運營不需要我過分參與。但是有機會的話,我還是非常喜歡跟程式設計師社群的成員進行溝通。我本身也是程式設計師背景,很喜歡這件事情,有很大的passion。

Alex:我看到市場上你們在中美兩國都在推廣, 我想知道在市場上有哪些進展?

李浩源目前是有很多公司在用。我們也感到非常自豪,因為各個領域最好的公司都在內部使用我們的軟體做越來越重要的業務。比如,我們採訪的大部分聽眾是中國的程式設計師背景,從中國國內的角度看,中國目前按市值來排名的最大的前十家網際網路公司裡,有九家在產品線裡使用我們的軟體,很多也是公開地積極地參與到社群的活動裡。我們的微信公眾號裡也有一些公開的案例,像騰訊,京東,滴滴,唯品會都在用,七牛,蘇寧也都在用我們的產品。除了網際網路行業,零售行業使用也很廣泛。目前使用最多的幾個行業是網際網路,零售,包括e-commerce,還有電信行業——特別是中美頂級的最好的三家電信公司都在用我們的軟體——當然還有金融服務行業,比如在美國和亞洲地區規模最大的銀行也在使用我們的產品。這也是我們目前覺得很自豪的事情: 我們的技術和產品可以得到這些很重要公司的認可,我們的產品能夠讓他們成為他們做很重要架構時的一個應用。

Alex大資料創業幾年前就已經開始了,現在應該已經有像你們這樣做到有一定的attraction和客戶revenue的社群的一個情況,您怎麼看Alluxio下一步的發展,未來三年的目標是什麼?

李浩源:首先,大資料這個詞被幾個大資料廠商使用過度,成為了coin term。從這個角度講,我們不認為自己是一家大資料公司,而是一家資料公司。區別在哪裡呢?大資料公司大家認為就是做大資料分析,像Spark,MapReduce,Hive;而我們做的其實叫data-driven application,只要是資料驅動的應用我認為都可以跑在我們的平臺上面。所以說我們是一家資料公司。這是我對未來的一個看法。

未來3-5年,在我剛才提到的幾個領域,中美之間還有整個亞太地區,最領先的產業公司大部分都在用我們的產品,所以希望兩方面:其一,從3年的角度看,有更多行業的頂級公司使用我們的產品,在它們的資料架構裡面充當一個很重要的位置,這是從擴充套件行業的角度講;其二,在已有的行業裡,希望有更多的公司使用我們的產品,也希望我們的社群發展得越來越大。因為如果想作一個市值標準的話,社群發展是非常重要的指標。開源也是基礎架構型軟體未來的一個必然趨勢。目前很多世界領先的500強公司在選擇基礎架構型軟體時,一定要選擇一個有開源背景的軟體。所以我們從使用角度來講要做到廣和深,從技術角度來講,要慢慢走向一個更加成熟的平臺型技術。目前的系統從長遠講還有很多挑戰,這也是令開發人員以及社群人員非常興奮的一點,因為有新的東西可以做。我堅信這個系統會越來越豐富,越來越成熟,我們有一個長長的使用者需求列表,希望這個系統可以越來越全面,走向對系統定位更成熟的方向。

Alex:今天傾聽了浩源對整個資料行業發展的介紹,包括您所說的資料驅動的應用,整個生態,以及AI起來之後對行業背後的儲存和計算帶來的挑戰,特別是他作為一個startup的founder,怎麼從一個researcher的角色過渡到一個創業者的經歷,有很多的思考滲透其中。希望大家關注Alluxio的社群,如果有興趣解決衝突的問題,也可以多瞭解他們的solution,加入他們的開源社群平臺。

另外李浩源博士,受邀在201812月6日中國大資料技術大會(BDTC 2018)主論壇上,作題為“Alluxio—統一化分散式虛擬檔案系統”的主旨報告,敬請期待!同時也可以多關注我們Robin.ly平臺裡邊的內容,後期會有更多類似的分享。謝謝!

李浩源:謝謝大家,謝謝Alex!

Alluxio CEO李浩源:構築資料流動的高速公路

相關文章