達芙妮·科勒(Daphne Koller)的履歷堪稱傳奇。出生於以色列的她早早顯露出了過人天賦,17歲就從大學畢業,18歲便取得了碩士學位。隨後,她將人工智慧定為自己的職業方向,並很快成為這一領域的頂尖學者。2004年,只有36歲的她斬獲“麥克阿瑟天才獎”。2012年,她入選《時代週刊》百大風雲人物。
在史丹佛大學度過了18年的時光,這位才華橫溢的學術明星近年來決意在職業道路上迎接新的挑戰。而她選擇的挑戰,是行業期望已久的聖盃——使用機器學習方法,在至今無藥可治的疾病中,找到可成藥的靶點。
人工智慧與新藥研發
過去幾年,人工智慧是社會關注的熱點。在新藥研發領域,人們也期待來自機器的智慧能夠解決研發產率不斷下降的痛點。在藥明康德全球論壇上,我們連續幾年聽到了來自業內權威的洞見。他們的分享,許多都指向了一個關鍵詞——預測。
我們能預測藥物分子進入人體後產生的影響嗎?我們能利用資料,預測臨床試驗的結果嗎?我們能預測出人類疾病的分子機制嗎?我們能預測哪些試驗不必進行嗎?如果能回答這些“預測”的問題,或許就能提高新藥研發產率。
▲insitro創始人兼執行長科勒博士在今年的藥明康德全球論壇上分享關於資料的洞見(未來需要怎樣的大資料與AI? | 藥明康德全球論壇實錄)
今年1月,科勒博士在藥明康德全球論壇上分享了她對“預測”的看法。她指出,為了建立預測模型,我們需要足夠多的優質資料來訓練演算法。但在新藥研發上,這些高質量的資料往往並不存在。人們為此往往選擇折中方案,將大量資料拼湊起來,應用於機器學習。但對於擅長見微知著的機器學習而言,輸入虛假的訊號,只會導致“垃圾進,垃圾出”的後果。
為了解決這一問題,她於2018年創立了insitro公司,致力於將頂尖機器學習演算法與高質量、大規模的訓練資料進行結合,真正推動以資料數量和質量為基礎的機器學習演算法。據透露,該公司的A輪融資金額超過了1億美元,對其表示看好的包括ARCH Venture、谷歌風投、以及Third Rock Ventures等知名風投機構。
慷慨解囊的背後,是這些風投對一個關鍵問題的追問:我們真的能讓生物學變得更容易預測嗎?
通往成功之道
科勒博士指出在機器學習領域,初創公司的數量正在快速增長,但“絕大多數的公司期望從已有的資料中提取洞見”。在她看來,“許多資料集本身的質量並不出色。退一步講,就算它們能夠滿足最初的需求,這些資料集也不是為了高階機器學習方法而設計獲取的”。
這正是insitro與大部分機器學習公司所不同的地方。科勒博士向我們介紹,insitro的側重點並不是“能獲得什麼資料”,而是在新藥研發的過程中,率先找出有哪些阻礙和問題,然後考慮哪些部分在合適的大規模資料集下,能夠通過機器學習的方法進行變革。“當我們能找到存在的關鍵問題,就能產生大規模的高質量資料,用於機器學習分析。”科勒博士補充道。
而insitro首先想要解決的問題存在於生物學中。“許多藥物之所以失敗,是因為它們靶向了錯誤的物件。我們需要更好的疾病模型來尋找靶點,”科勒博士說道:“我們想要參與到從苗頭化合物到先導化合物的尋找,並對先導化合物進行優化,以支援機制相關的研究,並在一定程度上減少化學所面臨的風險。從長期看,我預見我們的技術能用於設計化合物,發掘生物標誌物,設計臨床試驗,並改善生產過程。”在insitro看來,生物學是最富機遇的領域。
▲insitro的投資團隊堪稱豪華(圖片來源:insitro官網截圖)
人們期望通過水晶球來預知不確定的未來。在新藥研發領域,我們同樣期望能夠不用進行臨床試驗,就能相對準確地預知結果。期望背後,是當下臨床試驗設計與進行中的種種痛點。“有些時候,臨床試驗太難進行,或者成本太過高昂。有些時候,一些試驗甚至沒有開展的可能。從某種意義上說,我們所使用的疾病模型和靶點鑑定方法,只是在一個特定基因被干擾後,嘗試去預測人類表型發生的變化。更好的藥代動力學模型和毒理模型能給我們帶來啟發,但機器學習能帶來更重要的影響。”科勒博士評論道。
挑戰NASH
今年4月,吉利德宣佈與insitro達成一項為期3年的研發合作,開發治療非酒精性脂肪性肝炎(NASH)的疾病模型。研究人員們期待,他們能夠找到逆轉病情,或者至少能夠延緩疾病進展的新型療法。
在全球肥胖的流行下,NASH的發病率在過去20多年裡有著顯著上升。這種疾病從肝臟炎症起步,逐漸會演變為肝硬化,肝癌,乃至肝臟功能衰竭。然而,它又是一種“沉默的疾病”。在病程早期,當肝臟逐漸纖維化和硬化時,患者並不會顯露出明顯症狀。
於是,NASH為全球帶來了嚴重的醫療負擔。據估計,全美有1600萬人受到這一疾病的困擾。如果以美國總人口進行衡量,這相當於每20名美國人裡,就有1名NASH患者!到2020年,NASH也將超越丙肝,成為美國肝臟移植的最主要原因。
正如科勒博士堅信高質量資料是人工智慧做出突破的基礎,為了建立NASH的疾病模型,insitro用於開發模型的方法也使用了大量人類資料,這包含從公共資料庫或臨床試驗中獲得的遺傳學資料、分子表型、以及臨床表型。隨後,這些資料將與insitro自身的體外研究技術進行整合,輔助開發。
▲優質的資料,有望讓機器學習展現更大的潛力(圖片來源:Pixabay)
“我們對這項合作感到非常高興,這背後有幾個原因,”科勒博士說道:“首先,吉利德有頂尖的科學團隊,他們對幫助患者非常上心。其次,他們不但為本項合作帶來了大量資料,還帶來了卓越的化學能力。這些寶貴的資源與我們的能力能很好形成互補,以產生大量與臨床資料相互驗證的體外資料,並讓我們能用機器學習的方法尋找靶點。最後,這項合作還將在短期內為我們帶來打造平臺所需的資金,讓這個平臺朝我們所期望的方向發展。從長期看,我們希望能帶來造福患者的藥物。”
在接下來的幾年裡,insitro計劃對吉利德的優質資料“進行消化”,並使用機器學習的方法,從中挑出重點,便於其開發所需的方法。到2020年,研究人員們期望能夠提升其技術平臺的規模,找到NASH相關的特徵。到2021年,insitro期待其平臺能有小成,並開始篩選那些能將細胞從疾病狀態轉為健康的靶點。
未來的方向
“我從事生命科學領域研究已經有了將近20年的時間。儘管我們在這20年裡取得了長足進步,但我依然覺得有兩大不足。我們缺少能給機器學習的高質量資料,也缺乏同時精通機器學習和生命科學的跨界人才。”科勒博士點評道。在她看來,跨界人才尤為稀缺——機器學習和生命科學所使用的是截然不同的術語體系,有著截然不同的思維方式,兩者之間的思維溝通充滿挑戰。
“為了在這個交叉領域做出有意義的工作,理想的團隊要理解哪些是真正需要被解決的問題,也要掌握解決問題相應的技術和能力,”科勒博士補充道:“這支團隊需要對機器學習和生命科學同等重視,並在每一個環節中都緊密合作。隨著時間推移,具體技術會發生迭代,但(跨界的)公司文化,以及多技能人才之間的交流模式將會永存。”
▲未來,我們需要同時精通生命科學和人工智慧的人才(圖片來源:Pixabay)
科勒博士坦誠,人工智慧在生命科學方面的應用,目前還處於早期階段,還有許多提高的空間。基於此,她也無意過早做出太大的承諾。“最終,機器學習技術的驗證,還是要看我們能在多大程度上幫助患者。”她說道。我們是否選對了靶點,能否更快開發出成本更低的新藥,為患者能帶來多少意義與價值?在不久的將來,我們期待聽到這些問題的正面答案。