上海交大發布 MedMNIST 醫學影像分析資料集 & 新基準
By 超神經
內容概要:醫學影像分析是一個非常複雜的跨學科領域,近日上海交通大學釋出了 MedMNIST 資料集,有望促進醫學影像分析的發展。
關鍵詞:醫學影像分析 公開資料集
令人頭禿的醫學影像分析
醫學影像分析是一個公認的「老大難」課題。
首先它是一個跨學科領域,要求從業者具備多方面知識背景,即使你是鑽研計算機視覺的專業人士,又或者是一個臨床醫學從業者,那你充其量只邁出了進行醫學影像分析的半隻腳。
樂觀估計,經過多年的學習和研究,你終於掌握了計算機視覺和臨床醫學的雙向技能,那接下來的操作也能讓你愁到頭禿,因為這些資料來源五花八門,有 X 射線、CT、超聲……分析處理這麼多個不同模式的非標準資料集,也太難了!
這還沒完,深度學習雖然在醫學影像分析的研究和應用中,已經佔據主導地位,但模型調整需要的人力成本太高了,AutoML 好使是好使,但是目前基本沒有用於醫學影像分類的 AutoML 基準。
MedMNIST 分類十項全能一覽
醫學影像分析困難重重,然而上海交通大學近期釋出的 MedMNIST 資料集,則為終結這些老大難問題,帶來了一大利器。
10 個公開資料集、45 萬張影像重新整理
MedMNIST 是一個包含 10 個醫學公開資料集的集合,且全部資料均已經過預處理,將其分為包括訓練集、驗證集、測試子集的標準資料集。資料來源包括 X 射線、OCT、超聲、CT 等不同成像模式,得到了同一病灶的多模態資料。與 MNIST 資料集一樣,MedMNIST 可以在輕量級 28*28 影像上執行分類任務。
十個資料集的資料模式、適用任務及影像數量
MedMNIST 具有以下特點:
教育性:多模態資料來自於多個公共醫學影像資料集,採用知識共享(CC)許可協議或自由許可協議,方便教學使用。
標準化:全部資料已經預處理成相同的格式,降低准入門檻,任何人都可以使用。
多樣性:多模態資料集涵蓋了不同的資料模式,資料規模從 100 到 100,000 都支援,任務型別也豐富為二元分類、多元分類、有序迴歸和多標籤。
輕量級:28*28 的影像尺寸便於迅速進行原型設計,對多模態機器學習和 AutoML 演算法進行快速迭代和實驗。
MedMNIST Dataset
釋出機構:上海交通大學
包含數量:454,591 個影像資料
資料格式:NPZ
資料大小:654 MB
釋出時間:2020 年 10 月 28 日
下載地址:
十項全能大法好,打造 AutoML 新基準
受《醫學分割十項全能》(Medical Segmentation Decathlon)的啟發,上海交通大學的科研人員還發布了《MedMNIST 分類十項全能》 (MedMNIST Classification Decathlon),作為醫學影像分類中的輕量級 AutoML 基準。
科研人員用 MedMNIST 分類十項全能,評估了在全部 10 個資料集上的演算法效能,並採取了其他幾個 baseline 方法與該基準進行對比,這些方法包括 ResNets(18、50)、auto-sklearn、AutoKeras、Google AutoML Vision。
MedMNIST 在 AUC 和 ACC 等指標上的效能一覽
實驗結果表明,針對全部 10 個資料集,都能取得很好的泛化效能的演算法,在實驗中並不存在。該實驗對於探索在不同資料模式、任務型別和資料規模上,進行很好地泛化的 AutoML 演算法,意義重大。
MedMNIST 分類十項全能基準測試,將促進未來醫學影像分析 AutoML 的相關研究。
相關論文:
開源地址:
現在下載資料集,開始你的訓練
下載資料集,線上訓練機器學習模型,你可以透過 OpenBayes 開啟你的練習。
OpenBayes 是一個針對機器學習提供雲端算力的雲服務平臺,它擁有大規模的超算叢集,支援多種配置的 GPU、CPU 算力資源,擁有開箱即用泛用型機器學習建模系統,無需機器學習經驗,即可快速建立智慧系統。
目前 OpenBayes 的算力容器產品已經支援 TensorFlow、PyTorch、MXNet、Darknet、cpp-develop 等 CPU 和 GPU 環境下,不同版本、型別的標準機器學習框架和各種常用依賴。
同時 OpenBayes 還提供 CPU、NVIDIA T4、NVIDIA Tesla V100 等多種算力資源,無論是海量資料的集中訓練,還是低功耗的模型常駐執行,都能輕鬆滿足使用者需求。
目前 MedMNIST 資料集已經上線 OpenBayes。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69969896/viewspace-2733159/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 醫學影像分析入門
- 基於深度學習的醫學影像配準學習筆記2深度學習筆記
- 【2】Kaggle 醫學影像資料讀取
- 運籌新資料,中山大學精準醫學中心的新儲存之道
- [影像處理] 基於CleanVision庫清洗影像資料集
- 醫學影像處理中的資料讀寫
- 醫學影像AI為什麼需要小資料學習?AI
- 醫學影像配準 | Voxelmorph 微分同胚 | MICCAI2019AI
- AI成像新標準,僅1%原始資料可達最佳效能,通用醫學基礎模型登Nature子刊AI模型
- 準備資料集用於flink學習
- 資料分析 | 基於智慧標籤,精準管理資料
- 【從零開始學爬蟲】採集丁香醫生新冠問答資料爬蟲
- 基於VC + MSSQL實現的縣級醫院醫學影像PACSSQL
- 體素科技:深鑽小資料下的醫學影像分割
- C#處理醫學影像(二):基於Hessian矩陣的醫學影像增強與窗寬窗位C#矩陣
- 程式碼智慧新基準資料集CodeXGLUE來襲,多角度衡量模型優劣模型
- 圖解資料分析 | 資料分析的數學基礎圖解
- 基於準則匹配的影像對準
- 基於C++程式設計醫院醫學影像系統PACS實現C++程式設計
- 棉花病害影像分類資料集
- 水稻病害影像分類資料集
- 影像處理開源資料集
- 影像篡改資料集COVERAGE分享 002
- 醫學影像資訊系統(PACS/RIS原始碼)原始碼
- 視覺化醫學影像CT視覺化
- 世界人工智慧大會建立醫療AI標準資料集,AI發展仍需處理多個資料問題人工智慧AI
- Python遙感影像疊加分析:基於一景資料提取另一資料Python
- C#開發PACS醫學影像處理系統(六):載入Dicom影像C#
- C#開發PACS醫學影像處理系統(十九):Dicom影像放大鏡C#
- 基於celeba資料集和pytorch框架實現dcgan的人臉影像生成PyTorch框架
- 學會System Generator(22)影像採集與輸出(資料流方法)
- 完整的醫學影像PACS系統
- 資料分析的標準SOP!
- 遙感影像Trento原始資料集下載
- 新資料湖產品MinIO基於NVMe基準測試打破記錄
- 數字化醫院醫學影像PACS系統原始碼原始碼
- C#開發PACS醫學影像三維重建(一):使用VTK重建3D影像C#3D
- React 16.4新特性發布React