阿里雲天池Apache Spark落幕:AI醫療進入落地實踐深水期,達摩院如何用生態破局?

機器之心發表於2020-10-11

阿里雲天池Apache Spark落幕:AI醫療進入落地實踐深水期,達摩院如何用生態破局?

10 月 10 日,AI 醫療行業最高規格賽事——阿里雲、英特爾(中國)有限公司聯合主辦的 Apache Spark AI 在杭州落下帷幕。

脊柱外科疾病已經越來越困擾著老年人及久坐的上班一族,脊柱病變發展緩慢且不明顯,長此以往會壓迫神經和血管,甚至造成大腦指揮失靈。

此次比賽正是瞄準脊柱外科疾病,參與者需要提供提供全自動演算法來定位錐體、椎間盤的位置和相應分類以幫助篩查病例。

比賽歷時 121 天,覆蓋了脊柱外科疾病核心症狀 7 種。來自學校、科研機構、醫療企業等各個地方的 3330 名選手組成了 3107 支參賽隊伍。

這些開發者們將單個病灶診斷準確度提高至 70%,單個病例篩查時間提高至 0.05min。

阿里雲天池是全球最大規模的大資料賽事平臺,從 2017 年便開始深耕 AI 醫療賽道舉辦「數字人體」系列比賽, Apache Spark AI 已經是該系列的第三場。

天池大賽的背後,是阿里雲磨礪醫療 AI 決心。

軟硬協同,英特爾新款 CPU「首秀」

2017 年,阿里雲天池第一屆「數字人體」比賽正式啟動,如今已經走過了三個年頭,前兩屆分別聚焦於宮頸癌風險智慧和肺部結節智慧診斷。

今年脊柱智慧診斷大賽傳承了以往比賽中的開放性、權威性。

比賽並不是在阿里內部的「孤軍作戰」,而是延續了阿里一貫的生態打法,聯合了行業中的多個合作伙伴,比如湘雅醫院、解放軍 301 醫院等骨科醫療界權威專家;香港大學、南洋理工大學、浙江大學等學術資源。

同時首次開放了具備行業共識和全球影響力的 MRI 骨科資料集,具有行業里程碑式的意義。

但相比前兩場,此次比賽也有一定的創新。相比前兩場有一定的創新,首先這是「數字人體」系列首次應用開源 Apache Spark 技術。如今開源 Spark 技術已經在中國技術圈裡生根發芽,獲得越來越多開發者的信賴,這次天池大賽也將 Spark 技術推向了醫療領域。

另外參賽選手更加開放,除學生外,還有大量來自科研機構、網際網路企業的開發者。在闖入決賽的 6 支隊伍中,既有來自「北京大學前沿交叉學科研究院」的研究生,也有來自國內外醫療 AI 企業的從業人員,比如健康管理企業「妙健康」和矽谷「深透醫療」的工程師。

比賽也取得了很多成果,「我們開放了經過行業認證的 MRI 優質骨科資料集,釋出了英特爾和 ECS 編制的白皮書,各個演算法團隊將單個病灶診斷準確度提高至 70%,單個病例篩查時間提高至 0.05min。」達摩院人工智慧工程中心負責人華先勝說。

阿里雲天池Apache Spark落幕:AI醫療進入落地實踐深水期,達摩院如何用生態破局?

值得注意的是,此次 Apache Spark 還是英特爾第三代至強可擴充套件處理器的「首秀」。今年 6 月 18 日英特爾全球釋出了新款 CPU,Spark AI 算是其首次在公開環境中使用併產生成果。

「隨著資料越來越多,我們需要有越來越大的算來解決和處理資料的問題。」阿里雲計算平臺總經理賈揚清表示,雲平臺和英特爾等硬體製造商的軟硬體協同設計變得越重要,「今天硬體提供越來越多的能力,軟體特別像海棉一樣把算力吸起來,這才能產生高效廣泛的應用。」

阿里雲天池Apache Spark落幕:AI醫療進入落地實踐深水期,達摩院如何用生態破局?

阿里雲計算平臺總經理賈揚清)

今年 6 月 18 日英特爾全球釋出了第三代至強可擴充套件處理器(Cooper Lake),繼續加大其在內建 AI 加速方面的投入,將 bfloat16 支援整合到其獨有的深度學習加速技術(增強型英特爾 Deep Learning Boost)當中。支援同時為 CPU 的 AI 訓練和推理效能提供加速。

根據英特爾工程師,增強型英特爾 Deep Learning Boost 可將人工智慧推理和訓練效能最高提升 1.87 倍,自然語言處理的訓練效能提升 1.7 倍,推理提升 1.9 倍。

複賽 CPU 賽道同時使用了英特爾開源的 Analytics Zoo。Analytics Zoo 是一個統一的大資料和 AI 平臺,可無縫地將 Spark、TensorFlow、PyTorch 和 Ray 程式整合到一個端到端的流水線中。

複賽選手基於 Analytics Zoo 整合的英特爾最佳化 TensorFlow 和 PyTorch 框架以及 bfloat16 的加速能力,有效提高了賽題的訓練和推理效能。

「我們希望做的事情是讓英特爾的硬體製造商和雲端計算的雲服務商一起合作,給產業界和科研人員提供更好的演算法、資料和算力。」英特爾大資料技術全球 CTO Jason dai 表示。

4 年耕耘,「AI 醫療是未來,阿里必須做」

「數字人體」系列比賽的背後是達摩院在醫療 AI 行業的長期耕耘。

「達摩院」的名字被整個醫療 AI 行業記住是在疫情期間,疫情爆發之初,達摩院就迅速將 AI 技術投入到醫療實踐。

先是連夜研發智慧疫情機器人,免費撥打控摸排電話排查身體異常人群;後又將 AI 演算法正式用於新館肺炎病原學檢測,並與浙江省疾控中心合作,用演算法將疑似病例基因分析時間縮至半小時。

2 月 15 日,達摩院還基於 5000 CT 影像樣本資料快速研發出了 CT 影響演算法,在鄭州小湯山上線,可以在 20 秒內對新冠疑似患者 CT 影像做出判讀,並量化病症的輕重程度,目前分析結果準確率達到 99%。

如今,達摩院演算法識別標註的第一張新冠肺炎 CT 影像的程式碼和照片就被分別收藏在中國國家博物館和中國科技館。

或許整個達摩院都沒有預料到自己的技術能如此迅速的在實踐中產生作用,疫情期間的成就來源於持續 4 年的積累與堅守。

人工智慧進入醫療健康領域是一個必的事情,阿里沒人做怎麼行?」達摩院醫療 AI 團隊的成立是來自於華先勝對未來精準的預判。在 AI 已經滲透到各行各業之時,醫療在當時還是待開墾的沃地。

阿里雲天池Apache Spark落幕:AI醫療進入落地實踐深水期,達摩院如何用生態破局?

(達摩院人工智慧工程中心負責人華先勝)

在團隊剛剛搭建的 2016 年,人工智慧如何在醫療領域發揮作用還並不清晰,達摩院毅然衝進了這片 “無人區”,決定先研發技術,定下了「允許醫療先不賺錢」的規定,從肺部 CT 影像開始切入醫療 AI。

2017 年,達摩院正式成立前期就在國際權威的肺結節檢測大賽上打破世界紀錄,將在樣本資料中成功發現結節佔比的比例提升至 89.7%。後來這項技術直接為第一套新冠 CT 自動診斷系統打下了基礎。

此後達摩院技術持續突破,在 Nature 子刊、CVPR 等頂尖學術期刊與會議上,發表了多篇論文。

但彼時達摩院還沒有清晰的技術商業化路徑,直到疫情為團隊,甚至整個 AI 醫療行業技術落地按下了加速鍵。

抗疫高峰期時,醫院影像科業務量飛速增長,多數醫生加班加點通宵讀片,但僅靠肉眼測評耗時且不精準,不少醫院認識到 AI 醫療影像判讀的價值;疫苗研發迫在眉睫,一些 AI 技術也進入了醫藥研發領域;遠端醫療逐漸普及,「智慧問診機器人」等產品的需求開始增加,醫院加速進行數字化轉型…

這些這些逐漸明晰的落地場景都驗證了華先勝先生最初的判斷。據 IDC 資料,2025 年人工智慧應用市場總值將達到 1270 億美元,其中醫療行業將佔市場規模五分之一。

但需要清醒認識到的是,醫療領域專業、複雜,技術落地從來不是一個簡單的事情。在整個行業都逐漸從理論向實踐轉型的過程中,還面臨著非常多的痛點。

比如高質量資料的缺失。醫療影像資料面臨著質量參差不齊,標準化程度低、人工標註難度大等諸多行業性難題。沒有資料集,演算法的精度和準確性便得不到保證。

行業人才也缺失。「AI」和「醫療」都是專業性極強的領域,AI + 醫療需要的也是複合型人才,但目前全球生物醫學交叉領域選手都非常少。

很多醫療 AI 領域科研人員在學校都很難接觸到真實的醫學場景,都是從技術角度切入產品研發,學術味濃但未必適合醫生使用。

新京報「尋找中國創客」報導曾指出,有時一家三甲醫院能同時安裝 10 餘家 AI 公司的產品,同質化嚴重,醫院真正使用的只有一兩家。

如何解決?阿里的做法是,以比賽為切入點打入行業生態。

「每一個選手解決的小問題都能推動行業前進」

在一定程度上,「數字人體」系列比賽也可以說是達摩院的「黃埔軍校」,一些優秀的比賽選手日後都進入到了阿里雲工作,這讓阿里雲在醫療 AI 領域首先就跑贏在了「人才」的起跑線上。

「醫療 AI 領域還沒有現成的人才,目前人才都是用非專業的,民間眾籌的方式培養出來,好處就是可以挑選出對這個領域有發自內心熱愛的人。

我們希望這個比賽可以為也許現在還不知道在哪裡的同學種上一個夢想的種子,培養出一些複合型人才為產業座貢獻。」阿里雲市場營銷和公共事務總經理劉湘雯說。

阿里雲天池Apache Spark落幕:AI醫療進入落地實踐深水期,達摩院如何用生態破局?

阿里雲市場營銷和公共事務總經理劉湘雯)

「數字人體」系列比賽一直都是面向全行業開發者,此次 Spark AI 更加開放,尤其鼓勵企業選手參賽,所以選手在接受不同領域知識時的成長也更加明顯。

此次 GPU 賽道冠軍便是一個「複合型團隊」,由妙宜家健康科技集團、東北大學、中山大學聯合組成。

談及奪冠原因時,妙宜家常德傑表示直言,「在比賽過程中,我們需要和學生溝通、和專業的醫生溝通,演算法人員和業務人員溝通一定會存在障礙,但我們最後把遇見的問題都反映在了模型裡,才取得了比較好的成績。」

就具體問題而言,來自深透醫療的項磊舉了一個例子,「判斷椎間盤類別時,醫生會只看椎間盤在哪,但演算法人員並不知道椎間盤區域在哪。這就需要與醫生配合,在設計演算法時先設計分割的網路,分割出椎間盤區域以提高分類的精確性。」

此外,阿里雲天池聯合三甲醫院開放的骨科資料集也讓演算法的訓練環境更加接近真實的醫療場景。不少來自學校和科研機構的成員則更多希望把象牙塔的技術拿到實際醫療場景中「遛一遛」。

北京大學前沿交叉學科研究院張麗從讀博就開始就做醫療影像處理,但始終侷限在學校科研領域,他表示參賽就是想將科研成果應用到醫療實踐。

「我們組的科研方向就是醫療影像處理、計算機視覺演算法等,一開始就有一個非常好的人體姿態識別檢測演算法,看到天池比賽,覺得我們的演算法也有這樣這樣的擴充性,希望能找到脊柱影像識別等領域的應用方向。」

資料集的開放便可以在醫療場景和科研環境中架起一道橋樑。

「我們提供 500 多份的腰椎核磁的資料,7 種典型的錐體和椎間盤的狀態,多樣性、困難度都比較大,非常接近真實情況」華先勝表示。

很多開發者在真實的資料中都會碰見並想方設法解決以往沒有遇見的問題,比如資料噪聲大、結果太容易過擬合、演算法模型在訓練集上表現不錯但測試集上結果並不好等。

每一個選手解決的小的問題匯聚在有 50 萬開發者的天池平臺上,就可以推動行業向前走一步。「雖然每次只能解決一個小的問題,但透過大會的推進便可以在領域中凝練問題進而推動產品和解決方案的落地。」

比賽結束後,阿里雲會匯聚行業從業者、研究人員、醫生就當下實際問題進行研討和觀點碰撞,不說官話,都是在探討實踐中遇見的問題、困境和可能的解決方案。

阿里雲天池Apache Spark落幕:AI醫療進入落地實踐深水期,達摩院如何用生態破局?

在此基礎上,阿里雲還將比賽的經驗加以凝練總結,釋出了《阿里雲天池大賽賽題解析》,提取了阿里雲天池 7 年 200 多場資料大賽精華,是國內首本針對大資料競賽的圖書,對於相關技巧、技術、內涵進行了詳盡闡述。

阿里打法:比賽為抓手,構建 AI 醫療系統工程底座

開發者、三甲醫院、專家智庫、企業… 每一次的「數字人體」比賽也都是一次行業生態參與者的集會,阿里也正在醫療行業複製自己的「阿里打法」,要成為底層基礎設施的建設者和行業解決方案的提供者。

「當年拿一個電腦拿一個簡單的資料集應用的日子已經過去,人工智慧落地非常強烈的需求就是要有一個系統工程底座,能夠把從需求到解決方案的鏈路打通。」賈揚清說。

在賈揚清看來,人工智慧在未來必然要經歷一個「祛魅」過程,現在開發應用要從需求出發,需求 - 建模 - 模型迭代 - 上線 - 結果迴流,是一個門廠的系統工程。

在未來,阿里雲真正想要的構建的就是系統工程底座,將解決方案打包給需要的人。「五年後人工智慧可能成為一個非常容易的工具給每個人使用。」

天池比賽就是構建平臺非常重要的抓手。

「天池比賽已經承辦了很多年,現在是做演算法和程式碼的的平臺,會聚集行業專家和開發者,我們希望在接下來的年月裡能夠跟大家一起共創人工智慧下半場,真正實現產業數字化。」

相關文章