在經歷“驟起”、“ 狂歡”、“冷秋”之後,人工智慧創投開始趨於理性。而在此時,針對人工智慧的下游應用也開始真正浮出水面,可以看到今年的各大醫療展會,人工智慧成為了真正的主題,從最早的手術機器人,再到更深入的智慧器械、影像識別、藥物研發.....而在基因技術領域,人工智慧同樣備受行業關注。
“它或許會成為企業競爭力的加速器。”在日前的2019CHCC上,貝瑞基因CEO兼聯合創始人周代星博士這樣形容。
儘管美國平均每年要在醫療保健行業投入1萬億美元的支出,但極大的支出呈現出的效果差強人意。比如乳腺癌,即便能夠對其進行篩查,但並不能阻止疾病的惡化;再比如處方藥,據估算有效性只有25%,大量臨床資源被浪費。
75%的處方藥沒有達到很好的效果
這背後的原因,其實是個體間的代謝吸收能力的差異,但目前的用藥並沒有考慮每個人的計量標準。“物聯網強調把事物數字化,我們這一點做得很好。但是對於人類本身的數字化,這個程度很低。”周代星解釋道。基因資訊與人密切相關,這30億個鹼基對是人體的程式程式碼,調控著人體內的一系列物理和化學變化。對數字化生命的最佳解釋,莫過於基因測序。
指導疾病診療和生活,是基因檢測的最終意義
在2012年之前,這個數字化的成本相當高。而當測序成本突破摩爾定律持續下降時,測序成本漸漸不再是問題。
測序成本與超摩爾定律
“現在是大家的接受度的問題。”他繼續說道。2014年,NIPT試點展開意味著基因技術臨床應用邁出了第一步,而今,這項技術的年檢測量已突破400萬人;第一份基於NGS的腫瘤基因檢測批件於2018年7月發出,腫瘤臨床檢測開始起步。此外,輕醫療概念的消費級基因檢測在國外已經形成市場,2018年年檢測量突破2600萬人。儘管中國不是人口遷徙國家,對祖源檢測的市場需求不比美國,但大人口基數以及健康管理需求也造就了消費基因檢測的巨大市場。
在NIPT、腫瘤檢測、消費基因之後,基因檢測的作用還有什麼呢?在半個小時的演講中,周代星給大家分享了一個故事:
生活在遼寧海城一個普通家庭的姐妹倆,姐姐24歲,妹妹16歲,從小輾轉多家醫院求醫問診,不幸的是,均被診斷為“腦癱”。而姐妹倆在接受全外顯子組檢測(WES)後發現,她們所患的其實是一種叫做多巴反應性肌張力障礙(DRD)的罕見病。在醫生進行鍼對性治療一個月後,姐妹倆可以自己吃飯;服藥50天后就能自己玩手機、開直播,而每月服藥的費用,僅需100多元。
這是一個極具代表性的案例,通過分子層面的診斷,對疾病最根本的原因作出解釋。基因檢測最終的意義,或許應該是像這樣通過對遺傳密碼的解析指導診療、指導生活。
人工智慧是全外顯子檢測實現的前提
“這對姐妹是比較幸運的,能夠找到病因,並且能有治療方案。”周代星告訴記者,“其實還有相當一部分疾病,研究上暫時沒有找到對應的基因。”除了染色體疾病和單基因疾病,大多數疾病由多個位點控制。位點與位點之間有著複雜的關聯,不同位點的變異組合可能會形成不同的疾病亞型。
而除了遺傳以外,生活習慣、環境等因素也與疾病息息相關,帶有致病位點的人並非一定會發病;即使發病,由於個人耐受不同,最終相同疾病在臨床的表型也存在差異。
因此,儘管理想很豐滿,但我們也不得不承認現實是骨感的,單單依靠人力,很難理清疾病與位點的對應關係。
人工智慧助力未知關聯的挖掘
在獲取到一個人的基因資訊後,通常需要與人類基因組匹配來找出可能存在的突變。而突變與疾病的對應關係的判斷大部分依靠公共資料庫,主要通過對已經發表的文獻挖掘得來。但全球範圍內每天更新的論文數量非常大,全部依賴人工整合並不現實。這個時候便體現出了人工智慧的價值。
目前大部分人工智慧的技術路徑是人工神經網路,其中又有ART網路、LVQ網路、Kohonen網路、Hopfield網路幾種演算法的變形。機器學習是目前人工智慧的核心,它能夠通過對大量非結構化資料進行學習和整合,挖掘並計算其中的關聯。通過對已有文獻和新增文獻的持續挖掘,人工智慧可以持續不斷的挖掘並更新突變位點和疾病的潛在聯絡。
“這種關聯覆蓋的越多,人們對基因的解讀能力就越強,越準確。”他告訴動脈網,這也是IBM Watson做的事情。
用“老資料”得出新發現
對於已經覆蓋到的疾病,人工智慧之於基因的意義或許還能上升到疾病的輔助診斷。以2019年3月23andme釋出的二型糖尿病研究為例,基於大量的資料訓練,23andme可以完全只依靠基因資料來判斷使用者是否患有二型糖尿病。
儘管這是一種多基因疾病,在大量資料的加持下,23andme可以將準確性訓練到79%。不過,你可能會想臨床上二型糖尿病的臨床診斷相對簡單,為什麼反而要通過更復雜的手段來診斷呢?
那麼換一個例子可能會有更直觀的感受。抑鬱症80%的發病都與基因有關,且是一種多基因疾病。這種疾病目前在臨床上主要通過對患者調查問卷來確診,極度依賴心理醫生的個人經驗。不誇張的說,抑鬱症的診斷還停留在經驗醫學時代。
“如果能夠僅根據基因對抑鬱症進行初步診斷,即便50%的準確率相比目前手段都是巨大突破。”周代星這樣解釋。
大規模資料是智慧的前提
始於無創(產前)、興於腫瘤(檢測),鼎盛於全基因組測序。在可預見的未來裡,全基因組或者全外顯子組的普及是必然趨勢。但全基因組或者全外顯子組的資料解讀一直面臨瓶頸,如果單純依靠人力,一位生物資訊工程師一天可能只能出具一份到兩份報告——這樣的速度幾乎不可能實現產品的規模化。因此,全外顯子要大規模市場化,人工智慧是必選項。
但是,這樣的人工智慧要如何實現呢?。數字醫療公司AliveCor的產品審批之路或許值得借鑑。AliveCor 針對 Apple Watch 推出了能夠即時量測心電圖的“KardiaBand”錶帶,這是數
110萬個ECG資料,並將超過20萬條有心房纖顫的狀況的資料與70萬條正常資料比對,再不斷校準後才通過考核。
對所有的人工智慧應用而言,智慧的前提都是大量的資料訓練。放在基因檢測領域,大量資料訓練的前提則是有大量資料產生,這意味著需要測序技術的大規模覆蓋。
要拿出社會所需的檢測產品
“企業首先得拿出符合社會需求的產品。”周代星指出。他認為,只有能夠滿足社會需求的產品,才能被市場所接受。毫無疑問,NIPT是成功的先例。但我們也不得不承認,僅僅是染色體的檢測,覆蓋的資訊還太少。“現在我們在嘗試推廣全外顯子檢測,可以覆蓋99%以上的遺傳資訊。”他透露,目前該產品價格低於3000人民幣,且正在持續下降中。
另外,23andme在消費型檢測市場的成功也給了基因檢測行業的從業者們非常大的啟示。儘管晶片檢測覆蓋的資訊量並不算大,但基於這些資訊23andme也已經有了不少成果,比如失眠基因和前文提到的二型糖尿病的研究。“全外顯子檢測的資訊量是晶片檢測的100倍,我想應該會有更多的突破。”周代星表示。
2019年2月,貝瑞基因宣佈與在東南亞和歐洲市場具有影響力的基因檢測公司Prenetics 聯合投資成立的消費級基因檢測公司圓基因,並邀請到前谷歌中國戰略合作總經理嚴峻加盟並擔任公司執行長,新公司定名 為“北京源圓基因技術有限公司(圓基因)”。據瞭解,圓基因將於2019年第二季度開始運營。周代星在採訪中透露,為了使檢測報告內容更客觀更充分,圓基因也將採用全外顯子檢測。
“不管查什麼,做檢測的時候都應該儘可能的全面。”周代星強調,“從發展歷程來看,先要有符合社會需求的產品,才能有資料的積累。有了這些基礎,才能有人工智慧分析,從一個疾病覆蓋到更多的疾病。”
資料規範與管理
除了數量,資料質量一直是人工智慧領域熱議的問題。資料量大並非等同於大資料,資料的結構化、規範化程度也至關重要。
而在臨床上,不同醫生對同一症狀可能會有不同的描述。比如A醫生描述“腹痛”,可能就是B醫生所寫的“腹部痙攣”;再加之不同個體間痛感、表述差異,同一表徵可能會有更多五花八門的描述。
在日常診療中,醫生的各人習慣對疾病診療的影響並不是特別大;但當這些零星的資料彙總到一個資料集中,就很難真實有效的對這些資料進行統計和歸納。更重要的是,企業的資料庫的來源可能來自多個不同的醫院,如果資料量達到數萬例,很難想象不同醫生們對同一症狀有多少表達方式。
如果能夠將這些語言規範化,形成統一的表達方式,無疑將更加有利於資料的挖掘和使用。基於此,貝瑞基因開發了一款叫做NLPearl的計算軟體,能夠基於自然語言處理將不同用語習慣形成統一標準。
儘管幾個層次的學習,NLPearl就可以對醫院的自然語言描述方式進行總結,當下一次遇到非結構化的自然描述時,系統就能夠自動校準為標準描述。
當資料積累到足夠大的量級,且有足夠量級之後,不管什麼樣的自然語言描述都有可能找到對應的位點;相應的,遇到這樣突變的患者,也可以反推他可能會出現的一系列臨床表徵。
或許,當系統訓練到一定程度時、全基因組或全外顯子檢測普及時,患者還未到醫院醫生就能夠對其進行初步診斷。而在醫院就診的環節,或許將更加註重治療環節的討論。
“另外,資料的規範也對日後的影響非常大。”他指出,如果要想成體量,一家醫院或者公司的資料量是不足夠的,“資料能否共享將成為關鍵議題。”更重要的是,在資料共享的過程中,必須有嚴格的行業規範,在保證資料持有者隱私和資料安全的前提下進行。
而對於企業個體而言,人工智慧的意義或許是讓強者恆強的工具。人工智慧的助力將進一步提升檢測的效率和精準度,同時從側面降低檢測的成本。而這些正式企業市場競爭力的體現。而對整個行業而言,人工智慧的意義則好比指南針和加速器,它讓基因技術能夠以更精準的角度、更快的速度進入市場並普及。
或許有一天,基因檢測會成為心電圖檢測一樣普遍的臨床工具,醫生們不必苦惱沒有分子遺傳學背景,人工智慧可以幫他們解決資料解讀和分析的過程。或許在基因技術和人工智慧,以及其他技術的幫助下,阿爾茲海默病的祕密終將被解開;或許網際網路問診、遠端醫療的實現將會有更有力的技術支援......
關於未來的設想還有很多,我們也相信這一切在未來均有可能。而落到實處,行業邁出的第一步應該從資料的產生開始。當然,行業共識和規範的達成無疑能夠會讓這一天更快到來。