上海交大發布 MedMNIST 醫學影像分析資料集 & 新基準

HyperAI超神經發表於2020-11-10

By 超神經


內容概要:醫學影像分析是一個非常複雜的跨學科領域,近日上海交通大學釋出了 MedMNIST 資料集,有望促進醫學影像分析的發展。


關鍵詞:醫學影像分析   公開資料集



 令人頭禿的醫學影像分析


醫學影像分析是一個公認的「老大難」課題。


首先它是一個跨學科領域,要求從業者具備多方面知識背景,即使你是鑽研計算機視覺的專業人士,又或者是一個臨床醫學從業者,那你充其量只邁出了進行醫學影像分析的半隻腳。


樂觀估計,經過多年的學習和研究,你終於掌握了計算機視覺和臨床醫學的雙向技能,那接下來的操作也能讓你愁到頭禿,因為這些資料來源五花八門,有 X 射線、CT、超聲……分析處理這麼多個不同模式的非標準資料集,也太難了!


這還沒完,深度學習雖然在醫學影像分析的研究和應用中,已經佔據主導地位,但模型調整需要的人力成本太高了,AutoML 好使是好使,但是目前基本沒有用於醫學影像分類的 AutoML 基準。


上海交大發布 MedMNIST 醫學影像分析資料集 & 新基準

MedMNIST 分類十項全能一覽


醫學影像分析困難重重,然而上海交通大學近期釋出的 MedMNIST 資料集,則為終結這些老大難問題,帶來了一大利器。


 10 個公開資料集、45 萬張影像重新整理


MedMNIST 是一個包含 10 個醫學公開資料集的集合,且全部資料均已經過預處理,將其分為包括訓練集、驗證集、測試子集的標準資料集。資料來源包括 X 射線、OCT、超聲、CT 等不同成像模式,得到了同一病灶的多模態資料。與 MNIST 資料集一樣,MedMNIST 可以在輕量級 28*28 影像上執行分類任務。


上海交大發布 MedMNIST 醫學影像分析資料集 & 新基準

十個資料集的資料模式、適用任務及影像數量


MedMNIST 具有以下特點:


教育性:多模態資料來自於多個公共醫學影像資料集,採用知識共享(CC)許可協議或自由許可協議,方便教學使用。


標準化:全部資料已經預處理成相同的格式,降低准入門檻,任何人都可以使用。


多樣性:多模態資料集涵蓋了不同的資料模式,資料規模從 100 到 100,000 都支援,任務型別也豐富為二元分類、多元分類、有序迴歸和多標籤。


輕量級:28*28 的影像尺寸便於迅速進行原型設計,對多模態機器學習和 AutoML 演算法進行快速迭代和實驗。


MedMNIST Dataset

釋出機構:上海交通大學

包含數量:454,591 個影像資料

資料格式:NPZ

資料大小:654 MB

釋出時間:2020 年 10 月 28 日

下載地址:


 十項全能大法好,打造 AutoML 新基準 


受《醫學分割十項全能》(Medical Segmentation Decathlon)的啟發,上海交通大學的科研人員還發布了《MedMNIST 分類十項全能》 (MedMNIST Classification Decathlon),作為醫學影像分類中的輕量級 AutoML 基準。


科研人員用 MedMNIST 分類十項全能,評估了在全部 10 個資料集上的演算法效能,並採取了其他幾個 baseline 方法與該基準進行對比,這些方法包括 ResNets(18、50)、auto-sklearn、AutoKeras、Google AutoML Vision。


上海交大發布 MedMNIST 醫學影像分析資料集 & 新基準

MedMNIST 在 AUC 和 ACC 等指標上的效能一覽


實驗結果表明,針對全部 10 個資料集,都能取得很好的泛化效能的演算法,在實驗中並不存在。該實驗對於探索在不同資料模式、任務型別和資料規模上,進行很好地泛化的 AutoML 演算法,意義重大。


MedMNIST 分類十項全能基準測試,將促進未來醫學影像分析 AutoML 的相關研究。


相關論文:


開源地址:


 現在下載資料集,開始你的訓練


下載資料集,線上訓練機器學習模型,你可以透過 OpenBayes 開啟你的練習。


OpenBayes 是一個針對機器學習提供雲端算力的雲服務平臺,它擁有大規模的超算叢集,支援多種配置的 GPU、CPU 算力資源,擁有開箱即用泛用型機器學習建模系統,無需機器學習經驗,即可快速建立智慧系統


目前 OpenBayes 的算力容器產品已經支援 TensorFlow、PyTorch、MXNet、Darknet、cpp-develop 等 CPU 和 GPU 環境下,不同版本、型別的標準機器學習框架和各種常用依賴。


上海交大發布 MedMNIST 醫學影像分析資料集 & 新基準


同時 OpenBayes 還提供 CPU、NVIDIA T4、NVIDIA Tesla V100 等多種算力資源,無論是海量資料的集中訓練,還是低功耗的模型常駐執行,都能輕鬆滿足使用者需求。


上海交大發布 MedMNIST 醫學影像分析資料集 & 新基準


目前 MedMNIST 資料集已經上線 OpenBayes。


上海交大發布 MedMNIST 醫學影像分析資料集 & 新基準



來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69969896/viewspace-2733159/,如需轉載,請註明出處,否則將追究法律責任。

相關文章