李廈戎:一個在生物領域創業的資料控(圖靈訪談)

盼盼姐發表於2014-12-02

李廈戎稱自己為資料控,他致力於機器學習演算法和分散式系統的實際應用。目前他正在生物資料領域創業,創辦聚道科技(Genedock),希望用資料技術推動生命健康行業革新。李廈戎曾在中國最大的移動資料服務平臺友盟工作,他作為首席資料科學家,帶領團隊針對移動資料特點,構建了面向數十億移動裝置的ID對映和使用者畫像系統。在此期間,他還結合移動廣告的實際需求,開發了行為定向和CTR預估等廣告策略模組。

李廈戎:一個在生物領域創業的資料控(圖靈訪談)

問:你在做現在的Genedock之前是做什麼工作的?

我之前在友盟,當時是首席資料科學家,做的主要是資料分析和資料探勘,包括計算廣告策略的優化,比如怎麼去預估CTR(Click Through Rate,點選率),怎麼樣給使用者做畫像,從而針對使用者做定向投放。從2011年底一直到今年的8月份我一直在友盟。

問:Genedock跟你之前的工作有關係嗎?

我之前的工作基本上就是為上述的資料應用設計pipeline,做資料整合和預處理,構建資料倉儲,選擇演算法,並在分佈系統上實現處理流程。今年年初的時候跟同學聊天,他就是做生物領域的,他跟我提到基因測序技術,雖然我之前沒有了解過,但是感覺很神奇,這是一個能更深入瞭解自身的工具。後來我發現基因測序分析已經有實際的應用了,包括產前篩查、新生兒、遺傳病,以及癌症相關的診斷和用藥指導。深入瞭解之後,我覺得基因技術的普及對於人類健康有很大的幫助,本身是一件非常有意義的事。而且,我發現基因很大程度上是一個資料問題,而我所積累的知識技能是可以幫助這個領域解決資料方面的問題。

基因資料領域其實國外已經有一些公司在做了,包括谷歌也在從投資和自研兩個角度進入這個領域。因此,這是一個有意義、前沿並蘊藏潛力的方向。所以我在5月份下決心做這件事,並著手準備。

問:國內現在這個領域的發展情況怎麼樣?

如果我們拿基因測序或者基因分析這個市場來說,華大基因肯定是一枝獨秀,可以說是這個領域的帶頭大哥。基因領域的很多公司是由華大員工創辦的,業內一般稱之為“華小”,所以華大就相當於這個領域的黃埔軍校。華大的業務基本涵蓋了整條產業鏈,它之前沒有自有的測序技術,沒有自有儀器生產,通過收購Complete Genomics也都有了。由於華大的示範效應,領域內其他公司的業務模式大都差不多,提供的都是涵蓋樣本製備、測序、計算、分析的整合式服務方案。

隨著基因資料不斷增加,很快資料處理會成為整個業務流的瓶頸。我和合夥人之前都在網際網路公司的資料部門,都具備雲服務和大規模計算系統的背景,我們希望提供雲端資料產品來幫忙解決這個領域的資料計算問題。

所以,我們和行業中已有的公司之間的關係其實不是競爭,更多的是合作關係。我們看到美國市場的分工比較細,有專門做生物實驗的,有專門做樣本的,有專門做測序的,有專門做資料計算的,有專門做領域應用的,甚至資料儲存和檢索也有專門的公司。但是國內市場還是處在比較早期而封閉的階段,所以分工沒有那麼明確。但是我相信行業會越來越開放,分工會隨之出現,每個公司都做自己擅長的部分。

問:你們團隊有沒有生物方面的專業人士?

公司的CTO王樂珩上一份工作在阿里雲,他是阿里雲的資深產品經理。他之前畢業於中科院計算所的生物資訊實驗室,並且在那工作了一段時間,前後六年生物資訊系統的開發經驗,他參與開發的pFind系統在國內應用廣泛。另外,我們的科學顧問在史丹佛大學的基因組系(Department of Genetics)任教。團隊內的基因資料工程師都是做過相關的科研工作。

問:生物大資料和生物資訊是一回事嗎?它們之間有什麼關係?

生物資訊學是生物和計算機交叉的學科,主要研究生物資料的處理分析。生物資料本身就具備大資料特性。首先,大資料在規模和生產速度上的特性,一個典型的例子就是由二代基因測序所帶來的基因資料量井噴。以前的基因組研究所涉及的資料量比較小,大部分是MB級別的資料。現在一個人類全基因組測序所產出的原始資料就是100-200GB。基因資料的增長背後有幾個原因,第一個因素是成本下降,十年前做一個完整的人類全基因測序需要數千萬美元,現在只需要一千美元,而未來一兩年有可能會達到幾百美元甚至更便宜,成本下降非常快。同時,基因測序的資料產出增長也非常快,比如說最新的Illumina的X-Ten測序儀,一天就會產生幾百GB的資料。所以,一方面是成本下降,一方面是生產速度提高。

大資料另一個重要的性質是多樣性,現在隨著各種組學研究,比如基因組、蛋白組、代謝組都在產生大量的資料,並且現在的趨勢是組學的交叉研究,我們科學顧問所在的實驗室就發表過這方面的早期工作。單一組學產生的資料已經不少了,多個維度的資料交叉必然會使得資料的分析壓力越來越大。

另外,大資料的還有真實性和高價值的性質。基因測序是更直接而準確的研究方法,對於醫療、農業、環境、傳染病等方面都具有比較高價值。

問:你有沒有補充生物方面的知識?對於學習全新領域的知識有什麼感受?

最近幾個月一直都在看相關的書,包括生物基礎知識和生物資訊學方面。

生物技術是人類認識自我,量化自我,甚至改善自我的工具。一開始,我覺得面對一個陌生但又非常神奇的行業。雖然隔行如隔山,但我發現生物資訊的很多分析演算法,之前也都使用過,所以也經常有他鄉遇故知的感覺。

問:基因測序在國內的發展水平與國外相比如何?

從科研方面上來講,基本上還是同步的狀態。但是在商業和醫療應用方面,我們的基礎設施還是落後於國外。大部分的核心技術還是在國外,比如測序儀和測序試劑都是國外研發的。

問:國外的市場發展情況如何呢?

目前基因領域最大的消費者是科研和醫療機構,而這兩個機構其實在中國是相對保守的,國內的商業化相對會落後一些。國外相應的行業都比較開放,願意接受商業化的服務。

問:那以個人為物件的呢?

現在個人的基因業務是一個起步的階段。在健康方面,Google投資的23andMe,因為未能達到嚴格的醫療標準,所以FDA就把它叫停了。國內也有一些在做基因健康方面的公司,也被中國的主管部門叫停。臨床方面,國外在孕期、新生兒、遺傳疾病、癌症和傳染病都有相關應用。現在國內批准的個人醫療業務是今年5月份華大剛批下來的無創產前篩查。

醫療服務需要得到衛生和藥監部門的監管,這也是正常的,因為關乎生命健康,處理的方式需要比較謹慎,但是政府整體上還是鼓勵的。面向個人的應用業務無論在國內或者國外,現在都處在一個早期階段,上升空間比較大。

問:大資料現在在生物領域已經解決了哪些問題?未來有可能會解決哪些問題?

大資料技術對於這個領域來說是一個基礎的工具。工欲善其事,必先利其器,大資料技術可以向生物學家和醫生提供高效易用並可擴充套件的分析工具。

並且,現在主流的大資料技術不是高成本的超算技術,而是用相對廉價的計算資源來做,所以實際上是降低了計算成本。這一點非常重要,降低計算成本意味著普及,以前很多科研和醫療機構無法承受的昂貴的計算能力變得可以接受。所以會有更多人蔘與到這個行業裡來,我相信大資料技術會對這個行業有正向的促進作用。至於說解決疾病健康這類核心問題,還得靠領域內的生物學家、醫生、藥企的協同努力,大資料技術只是一個好用的工具幫助他們去做事情而已。

問:你們Genedock的切入點在哪裡?你們現在已經在做哪些具體的業務?

我們的工作在於解決大量基因資料傳輸、儲存、融合、計算、協作等問題。提供開放的介面,讓使用者能夠方便地來管理和運算元據。然後我們也在跟一些生物資訊方面的業務團隊合作,因為他們在計算技術方面不是很擅長,我們就是在幫他們解決這樣的問題。

問:對於你們來說,現在是一個積累的過程嗎?

是的,需要積累的東西很多。生物領域和網際網路資料在很多地方有很大的差異,包括安全性和隱私性的要求、資料的儲存方式、處理流程、分析結果的質量控制。所以怎麼樣在這些環節形成標準化,是比較重要且需要長期積累的事。

問:在國內有跟你們定位一樣的團隊嗎?

國內有一些團隊在做跟我們做差不多的工作,一些成熟的商業公司也正在考慮用商業雲的解決方案。不過,從定位上我們是聚焦於資料技術在這個領域應用的,在業務面向上會有一些差別。我們希望能夠幫助到行業裡的其他人,結合生物技術和資料技術,大家互補協作是最有效率的方式。

國外做基因資料服務的公司已經有不少,比較成熟的公司包括Google投資的DNANexus,Seven Bridges Genomics,NextCode,另外新興的公司也很多。

問:你們現在使用的是什麼語言?

我們後端和web現在是以Python為主,有少量的Java程式碼,前端就是html、JS這樣的標準語言。我們也在考慮用Golang。

問:在生物資訊學領域,Python和Perl誰更強大、易用、代表著未來的發展方向?

其實生物資訊軟體用什麼語言寫的都有,現在生物資訊領域具體的演算法並沒有統一的金標準。針對不同的領域和問題,會有不同的解決方案,也就形成不同的軟體包,有用Perl,有用R,有的是Python寫的,有Java,有C++,也有C,也不存在那種語言更強大更適用的問題。我們選用Python的主要原因是,這是一個開發效率比較高的膠水語言。現在階段我們的主要目標是更方便地整合這些已有的工具,提供更好的介面。因為對於一個使用者來講他不可能熟悉這麼多語言或者熟悉這麼多的APP的使用,我們是想降低使用難度。你可以自助利用我們配置好的APP把工作流搭建起來。然後排程和執行對使用者來說是完全透明的,這會顯著降低了使用者使用成本。

問:你們現在團隊大概有多少人?

我們團隊現在8個人,都是工程師,不過我們開發的服務其實相對更硬一些,對工程師的需求還是很大,前後端工程師都有需求,尤其是擅長分散式系統和演算法的資料工程師以及資料視覺化專長的前端工程師。

問:你覺得什麼樣的人適合加入你們?

我們做的是跨界並且前沿的領域,我們在用資料技術解決生命科學和醫療的問題,所以需要對方是一個充滿好奇心並有很強學習能力的人,重視健康,最好能對醫療健康領域感興趣。另外,熱愛資料,喜歡用資料來描述和解決問題,也是一個加分項。我覺得真正能讓大資料產生價值的人是需要有豐富想象力並帶有理想主義精神的,也就是像我這樣的資料控,相信我們正在解決的問題是深刻而有意義的。


更多精彩,加入圖靈訪談微信!

相關文章