獨家 | 一個天才的開掛人生:5年升至華盛頓大學終身教授,直取AAAI最佳論文獎,如今他要拿機器學習攻破全球慢性病難題

AI科技大本營發表於2019-02-24

獨家 | 一個天才的開掛人生:5年升至華盛頓大學終身教授,直取AAAI最佳論文獎,如今他要拿機器學習攻破全球慢性病難題

採訪 | 孟巖

編輯 | 鴿子

他是少年天才,本科就讀於中國科技大學少年班;他是華盛頓大學的終身教授,一般牛人也得花個7年時間,而他只需要5年就評上。如今,他一頭扎進了資料探勘,在全美三大醫學院之一的聖路易斯華盛頓大學,用最高質量的資料,研究如何通過機器學習來解決醫學上的難題。

在本文的採訪中,陳一昕不僅談到了機器學習應用於具體醫療時面臨的難點,如資料不規律,資料難獲取,跨界的專業溝通,模型可解釋性差,出錯後果嚴重等;同時,面對這些問題,他也談到了自己的興奮點:

“科研更高的境界就是去發現新的問題、做新的研究。對我們來說找到新的問題,又有實際的價值,而且沒有人做過,這實際是非常幸運的事情。”

正是這個興奮點,讓他不斷打怪升級,攻破一個又一個難題,不斷開闢一條又一條新的道路,為醫療與人工智慧的結合打通經脈。他這一路到底開了哪些新的路?這些路到底對於醫療有怎麼樣的價值?如何站在高處來處理現有的難題?

請看AI科技大本營對華盛頓大學教授、犀牛科技創始人陳一昕的獨家訪談。


開掛人生


AI科技大本營:剛見到您的時候還挺詫異的,這麼年輕就成了華盛頓大學的終身教授,然後還回國創業了,這是駐顏術,還是您少年天才?

陳一昕:老實說,我本科是在中國科技大學少年班,1999年畢業以後去了美國讀研究生和博士,在美國伊裡諾易大學香檳分校。2005年博士畢業以後就直接到了美國聖路易斯的華盛頓大學,這是一所私立學校,是中西部的名校,在美國的綜合排名基本上是在12—14名左右,號稱是中西部的常春藤學校。這個學校有最好的醫學院,是美國三大醫學院之一。因為我的博士所學專業就是人工智慧和資料探勘,去了以後就和醫學院有很多的合作,所以這樣才進入了醫療人工智慧這個領域。

AI科技大本營:可見您屬於如假包換的學霸。美國的終身教職非常難拿,您怎麼搞定的?分享一點經驗吧。

陳一昕:確實挺難的。尤其做助理教授的時候,一般第7年評終身教授,我是第五年底就評上了。

要說到經驗,第一必須安排好自己的時間分配,出最頂尖的研究成果。我們的考核有這麼兩大塊,一方面是你的文章,是否在最頂尖的雜誌上發表文章。另一方面是看你文章的引用數。

第二個就是拿專案。如果沒有專案經費來源,不可能支撐你去做這樣的研究。像我們這種實驗環境,需要搭建機房,大量採購伺服器和GPU,另外還要招學生,而且我們的博士生都保證有全額獎學金。但這不是學校提供的,都是教授通過自己的專案經費來提供的。

第三,教學質量也不能差。

再有就是,一些榮譽性的成就,比如我得了微軟青年教授獎,每年全球5位。這個獎競爭非常激烈,我非常幸運拿到了,也相當於是一個加分項。另外也拿過美國能源部的青年科學家獎,和2010年國際人工智慧大會AAAI的最佳論文獎。

這些因素加起來吧。

AI科技大本營:不誇張的說,您這就是開掛的人生。伊利諾伊大學香檳分校是全球資料探勘領域的中心之一,您在那邊見到過韓家偉教授嗎?

陳一昕:我是1999年去的,韓教授2001年才到,我的導師是華雲生教授,也是非常著名的國際專家,目前在香港中文大學。我本人與韓老師也有合作,我上過他的課,也有跟他合作過幾篇論文,工作以後也跟他合作過。

AI科技大本營:當年怎麼選擇要去做資料探勘的方向?

陳一昕:其實一開始我做的是人工智慧,當時我們第一個專案是給美國宇航局做一個無人駕駛的火星車,需要做一個規劃。我們一開始是將環境全部設定好,後來發現有很多不確定性,有很多需要分析的東西。在火星這樣一個完全陌生的環境裡,需要根據攝像頭和感測器採集的資料對環境進行分析,然後再決定往前走或者轉身等動作。通過這樣一個實際的操作,我是發現資料分析是有很大的價值的,這才走上這條道路。

AI科技大本營:選擇醫療人工智慧方向是主動的還是被動的?

陳一昕:順其自然吧。一方面我們做資料科學需要真實的資料,正好華盛頓大學有這麼好的環境,我們醫學院出過十幾個諾貝爾獎得主,一大批美國科學院的院士,他們有很多高質量的資料。

此外,學校還有一個附屬醫院,是美國第八大醫院,也是中西部最大的醫院,它的病人是非常多的,每年住院的就有好幾萬人,所以方方面面有很多人找我合作。

另一個方面,在美國,年輕教師拿專案有很多的壓力,拿專案就要找到實際落地的場景,這是專案資助方面需要考慮的因素。

當然,我本人也對這個方向有興趣,我們做資料探勘,還是希望找到實實在在的,能夠改變人類生活的。還能有什麼比治病救人更有成就感呢?

醫療人工智慧的難點

AI科技大本營:您作為機器學習和資料探勘方面的專家,在醫療方面有沒有碰到什麼障礙非得跨過去不可的?

陳一昕:障礙蠻大的,2005、2006年感覺尤其明顯。雙方都是不同的視角,醫生關注的和我們關注的不一樣。我們講一些很簡單、很明白的術語,對他們來說都是不太好理解。反過來,他們說的我們也不好理解,這當中的交流成本還是很大的。因為我們在兩個不同的校區,每週開車去一趟。大概花了一、兩年的時間才真正找到感覺。找到感覺以後才能發現問題,然後才明白你希望達到什麼樣的目標。

我們做電腦科學研究的,當時自己作為副教授,要做論文,要做創新。但醫生們不關注你在電腦科學上面有什麼創新,他們關注醫學成果,要能實實在在的治病救人。但是很奇妙的是我們最終還是找到了非常好的結合點。

很多人寫論文可能是自己有一個方法再找問題,我們是有問題了再找方法,這難得多。比如說預測慢性病的風險,這個可以抽象為一個高維時序資料的分類問題。分類問題有很多研究,但是高維的時序資料如何分類,這在當時還是一個新問題。

AI科技大本營:時序問題應該也有很多研究吧,比如金融市場上的問題不都是時間序列分析嗎?

陳一昕:問題的性質很不一樣。

之前的時序處理,資料是規律的,比如股票,每秒一個新的報價。但是醫療資料完全不是這樣的,有的指標幾個小時測一次,有的幾分鐘測一次,有的隔好幾天測一次,有的隔一年再測一次,這如何處理?但是這對我們做科研來說是非常有趣的事情,因為我正好找到新的問題。

我們做科研分幾個層次,一個是將現有的工作做改進,或者是提出新的方法。但是更高的境界就是新的問題、新的研究。對我們來說找到新的問題,又有實際的價值,而且沒有人做過,這實際是非常幸運的事情。

AI科技大本營:美國做醫療的資料分析裡面,傳統上統計學一直是居於支配地位的。跟統計學、數學這些專家比起來,電腦科學出身的機器學習學者們有什麼優勢和不足?

陳一昕:就像武功有不同的流派,做的事情目標都是比較接近的,但是技術方法上是不大一樣的。比如計算機方面很多人是做資料庫出身,然後慢慢地有資料了再想如何挖掘出價值,然後做演算法分析。而做統計的很早就做分析了,做迴歸模型,線性迴歸,方差測試。可以說統計學者的出發點和流派是跟我們不一樣,但是我覺得非常互補。計算機的人更偏向於考慮效能。比如當資料量增大的時候,如何綜合考慮到演算法、時間複雜度、空間複雜度和效能。

統計學家不一樣,他們會去考察定理,考察它會不會收斂,這個模型是不是穩定,他們會更多地是從理論和數學角度思考這個問題。

但是我覺得現在的融合的趨勢非常明顯。做統計的在跟計算機界的人合作,來一起做研究。比如我就曾經和華盛頓大學的統計學教授一起合作過。

AI科技大本營:前不久麥肯錫發了一個報告,按照AI的準備程度,對各行業排了個名。排第一的是網際網路和高科技行業,第二是金融業。但比較意外的是醫療是靠後的一個行業。也就是說,在麥肯錫看來,醫療行業對於 AI的準備度是不夠的。這跟很多人的預期不一樣,因為大家覺得關於AI在醫療領域的報導是很多的,但是看麥肯錫的報告,醫療 AI 還差得很遠。這是怎麼回事?醫療到底是不是AI的熱點和前沿?

陳一昕:肯定是熱點和前沿,從投資界就可以看出來。大量優秀的資本像紅杉、IDG都在追逐醫療大資料方向好的專案。從商業角度講,醫療健康是剛需,我們說一個好的商業模式一定是剛需,這是醫療加AI發展的基礎。這個大方向是沒錯的。

但是麥肯錫的結論是靠譜的,醫療AI 有很多地方都沒有準備好。這裡面有很多的原因:

第一個原因是醫療是非常嚴肅的問題,並不像是聊天機器人,出點錯無所謂,醫療是不能出錯的,後果是非常嚴重的。所以國家有很嚴格的監管。像我一個朋友做健康手環,做ECG心電,但是不能隨便賣,需要藥監局批准。任何國家都對這個有監管,需要時間驗證。

第二個原因,醫療AI方面的確是有很多的難點。這是個跨界的事,我從做電腦科學起步,知道真的深入瞭解一個醫療的問題是很花時間的,需要好幾年的溝通和學習。就算你的團隊有醫學專家,你自己也要有一定的知識才能做這個事情。反過來也一樣,不是說一個醫學的博士就能馬上從事醫療方面的資料建模。所以人才是比較缺乏的。

資料資料資料!

AI科技大本營:我認識一個醫療大資料企業,他們介紹說這個領域裡面資料的質量、資料的獲取以及監管、隱私的保護在我們國內還是有很多很多的困難。便是拿到了資料以後,因為人有四萬多種不同的病,看起來很大的資料,如果一旦分佈在這樣大的可能性空間裡面,大資料就變小資料了。這樣的問題有什麼樣的思路?

陳一昕:對,這也是醫療大資料發展的障礙之一,因為現在不光是中國,美國也是,醫院和醫院之間的資料共享還是非常少的,基本上醫院的資料想拿出來很難。就連醫院內部都有很多資訊孤島,一個大醫院可能有幾十套資訊系統,幾十個廠家開發的,資訊之間不連通。目前看來,解決資料探勘需要的大量資料, 一種方向是政府和科研機構牽頭。中國基礎還是不錯的,醫院資訊化發展非常快,政府做了很多的工作,針對一些病狀,比如說腦卒中,政府組織了幾百多家醫院參與篩查,並且把資料集中起來分析。我們就參與了這當中腦卒中的預警及傳播規律建模的工作。

另一種方向是醫聯體或者是醫院集團。目前我們幫助一家醫院集團把底層的平臺全部打通,它上面是有二十幾家醫院,每個醫院有自己的資訊化系統,但是下面是一層大資料平臺,介面是標準化的。新增加一家醫院,所有的資訊化系統會像外掛一樣插在我的平臺,底層是互聯互通的。比如說我到這個集團的某個醫院拍片子,在另一家醫院就不用拍了,資料是共享,只有共享了資料量才能上來。

當然,這麼做我們的資料要標準化。我們現在自己定義了一套雲平臺資料標準在做轉化。針對醫院集團這樣的專案,我們底層雲平臺資料全是標準化的。當你達到這個標準,所有的資料都是在雲端、所有都是標準化,醫院資訊系統之間不是網狀的結構,而是直接插在平臺上的結構。

我們的定位是一家技術型的服務公司,我們的核心能力也是分析醫療健康資料。我們雲平臺上面有資料探勘分析的演算法,目前我們最關注的領域是慢性病的管理,以及醫院內部的急重症預防,這是我們的兩大核心能力。慢性病我們自己不做硬體,但是和一些硬體廠商的合作,通過像健康小屋,移動便攜裝置和穿戴式裝置,把資料收集上來做標準化整合,然後進行分析慢性病的風險,對腦卒中、糖尿病、高血壓、高血脂這樣的慢性病進行跟蹤管理,同時利用可解釋人工智慧技術給他反饋。


攻破技術難題

AI科技大本營:醫療領域裡很重視模型的可解釋性,這是否意味著炙手可熱的深度學習就受到了限制。

陳一昕:是的,無論是院內、院外,機器學習的模型輸出需要給出解釋。比如,一個模型不但能預測某患者有腦卒中高風險,而且能夠指出關鍵改善因素。比如,如果血壓140降到120,他的風險有多少改善,或者是由於哪兩項指標的結合過高所以導致了怎樣的風險。而且我們需要的模型,一定要簡單。現在深度學習模型動不動就是多少億的引數,它相當於是一種暴力的方法尋找關聯性,可解釋性差。我們在KDD’15上一篇論文就是從隨機森林中提取出可解釋方案。另外,我們的模型必須具有指導性,你可以根據模型給病人一些建議,要求他採取行動。這兩點都是必須的。

AI科技大本營:所以還是以線性的模型為基礎?

陳一昕:有幾種套路,一種是建模時就保證模型有足夠的簡單性和可解釋性,像邏輯迴歸方法。還有一種方法,我先做複雜的非線性模型,然後把模型簡化。比如先訓練一個神經網路,然後簡化為可解釋的模型去逼近。第三條路子是我先把複雜模型建好,然後再來測試,把它作為黑箱,再來看哪些指標敏感度高。複雜模型沒錯,你先找到關聯性,再從準確反映關聯性的模型上抽取出可解釋模型。

AI科技大本營:深度學習最大的優勢除了模型能力強之外,更重要的是可以進行表示學習,也就是說不用你做那麼煩瑣的特徵工程。但是在醫療領域,是不是特徵的工程還是無法避免的呢?

陳一昕:的確是。機器學習當然是可以學一些表達,但是基於醫學知識的特徵工程師是不可或缺的。瞭解醫學知識可以節約大量的計算量。

對我們來說,深度學習是有侷限性的,比如說我們看一個時間序列,它一個序列有一個時間維度,對不同的疾病預警,波形特徵是在不同的時間尺度上的。有的在秒的上面找到波形,有的按小時,有的按天的尺度,非常不同。深度學習很難直接找到。我們在研究的過程中也提出創新型的模型,將訊號處理的變換技術與卷積神經網路相結合,能夠自動找到適合的時間尺度表達。

AI科技大本營:我發現您研究的醫療資料探勘,跟CV、語音、NLP相比,最大的不同是時序性。但以前我採訪過非常著名的時序分析專家,他跟我講時序分析這件事其實是有很多的盲點,很多沒有搞清楚的地方。所以這個技術用於我們們的醫療裡面,您覺得現在成熟度怎樣?

陳一昕:的確是有很多的盲點,因為時序是非常特別的結構,而且又是高維的。我們做一些建模時用了多達150項人體的指標,而且時間尺度還不一樣。

另外,不僅僅是時間維度不一樣,還有頻率,就像你炒股票,有時候做高頻交易,要看高頻訊號,有的是低頻,要看低頻訊號。所以對不同頻率域也要分析。剛才你問到的統計學的方法,有一些東西很多計算機學者可能都不知道。比如,可能我們都知道邏輯迴歸和線性迴歸,但還有一種東西叫Cox Regression分析,很多計算機學者不知道。我們做了一個工作,就把Cox Regression分析和機器學習結合,取得了非常好的效果,並且獲得了2015年全美醫療資訊化大會(AMIA)最佳論文獎。這樣的盲點恐怕還會有很多,值得我們去進一步探索。

AI科技大本營:我相信您的公司也會需要一些工程師,您對他們有什麼要求嗎?

陳一昕:我們公司會有不同的崗位,每個崗位的要求有一些區別。

比如我們的軟體工程師,我希望他做過資料探勘相關的工作,至少是對一些軟體包有一定的熟悉。我們的開發團隊成員我都會讓他們看一些資料探勘和機器學習方面的書。不一定理論上和技術上有自己的創新,但是至少知道自己做什麼。

但是對於資料探勘方面的工程師,我們要求更高,基本上要求是資料探勘相關領域的博士。

相關文章