今年諾貝爾獎對 AI 的「偏愛」再一次將 AI for Science 推向大眾視野,甚至可以說是一次里程碑事件,標誌著全新科研正規化已然是大勢所趨。回望科學發展程序,從實驗科學到理論科學,再到計算科學與資料密集型科學,每一次正規化轉變都極大地推進了人類文明的進步,而在整個迭代的過程中,資料的核心作用從未改變。
如今,進入 AI for Science 時代,資料價值得以進一步挖掘,基礎科研領域又將迎來哪些革新?垂直領域的研究人員如何擁抱 AI?
面對 AI for Science 的發展浪潮,HyperAI超神經透過解讀前沿成果、報導典型企業、舉辦學術活動等多種形式,推動國內 AI4S 發展,為國內科研人員搭建交流平臺。11 月 2 日,HyperAI超神經作為聯合出品社群,在 COSCon’24 第九屆中國開源年會暨開源社十週年嘉年華期間,舉辦了 AI for Science 方向的開源 AI 論壇。
我們有幸邀請到了OpenBayes貝式計算創始人兼 CEO 王臣漢,浙江大學地球科學學院專聘研究員戚勁,上海交通大學長聘軌副教授、上海人工智慧實驗室青年科學家謝偉迪,以及清華大學電子工程系城市科學與計算研究中心博士後研究員丁璟韜。
在本次論壇中,4 位講師分別圍繞醫療人工智慧 (AI4Health)、地理資訊人工智慧 (GeoAI)、科研智算雲平臺以及 AI 驅動的城市複雜系統等方向,從知識科普、案例介紹、趨勢分析等方面進行了深度分享。
隨後,我們會將各位講師的分享以文字實錄與影片的形式,進一步報導乾貨內容,敬請期待!
AI 驅動的科研新正規化:⼈⼯智慧對統計⽅法的全⾯升級
OpenBayes貝式計算是國內領先的人工智慧服務商,在賦能國內一流高校及研究機構的過程中,其對於 AI for Science 的發展也有著深刻的洞察。針對機器學習推動前沿研究發展的價值,公司創始人兼 CEO 王臣漢提出了一個創新的公式:規模資料 X 模型結構 = AI 科研成績 - 傳統研究。
即在科研過程中,透過將規模化的資料應用於有效的模型結構,便能在任何一個工業領域的落地研究課題上大幅超越傳統方法,這便是 AI 驅動的科研能夠在近兩年內實現了 2-5 倍增長的重要原因。
OpenBayes貝式計算創始人兼 CEO 王臣漢
同時,王臣漢還強調,如果保持模型結構不變而一味地增加資料量,則可能會產生邊際效應,導致效能提升困難;同樣地,當資料規模一定時,模型引數也並非越大越好。只有當資料規模和引數規模都同等匹配增大時,其預測的失誤率將會下探到一個較低水平。
此外,他著重對比了傳統研究方法與 AI 研究方法的差異。其中,傳統研究方法高度依賴於科研人員自身的特徵和問題定義能力,只採用「小資料」,在泛化能力和擴充能力上存疑。而 AI 研究方法則需要引入大規模、高質量資料,並採用機器學習進行特徵抽取,如此產生的科研結果在真實世界的問題中仍然有效。
最後,王臣漢還介紹了 OpenBayes貝式計算是如何賦能 AI for Science 的——將開源資料集、AI/HPC 教程、開源/私有模型等科研資料要素封裝到一個叢集軟體中,幫助科研人員實現模型構建、模型推理、工業軟體計算等方面實現一站式銜接。
GeoAI 及其跨學科地學應用
在地理資訊科學領域,空天地底立體觀測技術的發展促進了資料爆發,從而催生了時空大資料概念,但不同尺度的時空過程所產生的海量資料對於資訊的挖掘也是一大挑戰。
浙江大學地球科學學院專聘研究員戚勁博士介紹道,地理關係迴歸分析是地理建模的研究熱點,發展新的空間迴歸分析方法,提升地理關係的分析挖掘能力,對於理解社會過程和地理現象具有重要的理論價值與實踐意義。
浙江大學地球科學學院專聘研究員戚勁博士
針對於此,戚勁博士及其所在團隊融合空間加權思想與神經網路模型,提出了地理神經網路加權迴歸模型 (GNNWR),擴充套件了空間迴歸方法對地學要素非線性關係的擬合與解釋能力。同時,該團隊還發構建了基於 PyTorch 的開源模型庫——時空智慧迴歸模型,其方法體系已在地理、地質、海洋、大氣等方向支撐了 30 餘項研究。
在應用方面,他介紹了 GNNWR 模型在城市房價預測、大氣汙染分析、近海生態環境建模等場景下的表現:
- 在沿海的稀疏取樣點和未知點之間建立時空關係,並解算時空非平穩權重,從而獲得近岸海域的溶解矽酸鹽 (DSi) 的高時空解析度分佈;
- GNNWR 能夠精確地描述城市環境下的空間非平穩性,從而對房價等城市地理過程進行迴歸建模;
- 利用經過處理的 AOD、DEM 以及分站採集的氣候因子資料和 PM2.5 資料,建立空間非平穩的迴歸關係並估算 PM2.5 濃度;
- 在 GNNWR 中融合 Shapley 的可解釋理論,實現了對複雜空間環境下地質成礦情況的精確預測和解釋。
團隊初級目標:構建通用醫療人工智慧系統
上海交通大學長聘軌副教授、上海人工智慧實驗室青年科學家謝偉迪深耕於計算機視覺,在 2022 年回國後便投入到了醫學人工智慧的研究中,在本次論壇中,他從開源資料集構建、模型開發等多個角度分享了團隊的成果。
謝偉迪教授介紹道,醫學、尤其是循證醫學領域的知識,大多都是從人類的經驗中總結而來,一位初學者如果能夠窮盡所有醫學書籍,至少能夠成為理論上的醫學專家,所以,在模型訓練過程中,也希望能夠將所有醫療知識注入其中。
上海交通大學謝偉迪教授
但在醫療領域,由於隱私問題,高質量資料相對稀缺,所以謝偉迪教授在其回國後便聯合團隊開始著手構建大規模的醫療資料集,具體而言:
- 從 PubMed Central 收集到 160 萬對大型影像-標題配對資料,構建了 PMC-OA 資料集;
- 從 PMC-OA 中生成了 227,000 個醫學視覺問答對,構成了 PMC-VQA;
- 從 Radiopaedia 種收集了 53,000 個病例,48,000 個多影像-標題對,構建了 Rad3D 資料集。
- PubMed Central (PMC) 是一個由美國國家生物技術資訊中心建立和維護的免費全文資料庫,專門收錄生物醫學和生命科學領域的開放獲取學術文章。
- Radiopaedia 提供高質量且免費的放射學和醫學影像知識,是一個協作的開放編輯平臺,放射科醫生/學生以及其他醫療專業人士可以在此貢獻病例、文章和影像示例。
在模型的構建方面,他主要介紹了團隊開發的醫學專用的語言模型或視覺-語言模型,例如 PMC-LLaMA、多語言醫療模型 MMedLLaMA 等,以及 SAT 等通用分割模型等。
城市複雜系統的時空生成式建模方法
清華大學電子工程系城市科學與計算研究中心丁璟韜博士的主要研究方向為 AI 驅動的時空複雜系統生成式建模及應用,在本次分享中,丁璟韜博士重點介紹了面向城市複雜系統建模的時空生成式AI。
丁璟韜博士介紹道,目前城市複雜系統建模面臨的主要難點有高維、多模態的時空資料占主導地位;系統規模巨大,各要素間相互作用無法忽略;各系統資料分佈迥異,無法通用建模等等。
清華大學丁璟韜博士
針對於此,他及團隊開始探索麵向城市複雜系統建模的時空生成式 AI,面向人流移動模擬提出了物理知識指導的擴散模型;面向系統韌性預測提出了網路動力學增強的擴散模型;面向通用時空預測提出了提示學習增強的時空 GPT。
具體而言:
- 人流移動模擬模型 SPDiff 基於真實行人移動資料集,實現了效能提升 6.5%-37.2,以及小樣本下更好的泛化能力;
- 系統韌性預測模型基於擴散模型生成韌性/非韌性系統的觀測樣本,僅用 20 條 (2%) 標記樣本,維持預測精度 87% (F1 分數);
- 通用時空預測模型 UniST,收集 20+ 時空資料集, 超過 1.3 億 個時空樣本點,透過外掛時空記憶網路,儲存有效時空模式,生成 prompt 提示向量實現遷移泛化。
寫在最後
作為最早一批關注到 AI for Science 發展的開源社群,HyperAI超神經未來將持續關注國內外的前沿創新成果,為大家提供乾貨解讀與報導,同時,我們還在透過線上直播與線下學術論壇的豐富形式,為研究人員搭建溝通交流的平臺,歡迎從事相關研究的課題組向我們投稿或分享最新研究成果!