楊淨羿閣發自凹非寺
量子位 | 公眾號 QbitAI

史上AI最高分，谷歌新模型剛剛透過美國醫師執照試題驗證！

而且在科學常識、理解、檢索和推理能力等任務中，直接與人類醫生水平相匹敵。在一些臨床問答表現中，最高超原SOTA模型17%以上。

史上AI最高分！谷歌大模型創美國醫師執照試題新紀錄，科學常識水平媲美人類醫生

此進展一出，瞬間引爆學界熱議，不少業內人士感嘆：終於，它來了。

廣大網友在看完Med-PaLM與人類醫生的對比後，則是紛紛表示已經在期待AI醫生上崗了。

史上AI最高分！谷歌大模型創美國醫師執照試題新紀錄，科學常識水平媲美人類醫生

還有人調侃這個時間點的精準，恰逢大家都以為谷歌會因ChatGPT而“死”之際。

史上AI最高分！谷歌大模型創美國醫師執照試題新紀錄，科學常識水平媲美人類醫生

來看看這到底是一個什麼樣的研究？

史上AI最高分

由於醫療的專業性，今天的AI模型在該領域的應用很大程度上沒有充分運用語言。這些模型雖然有用，但存在聚焦單任務系統（如分類、迴歸、分割等）、缺乏表現力和互動能力等問題。

大模型的突破給AI+醫療帶來了新的可能性，但由於該領域的特殊性，仍需考慮潛在的危害，比如提供虛假醫療資訊。

基於這樣的背景，谷歌研究院和DeepMind團隊以醫療問答為研究物件，做出了以下貢獻：

提出了一個醫學問答基準MultiMedQA，包括醫學考試、醫學研究和消費者醫學問題；
在MultiMedQA上評估了PaLM及微調變體Flan-PaLM；
提出了指令提示x調整，讓Flan-PaLM進一步與醫學接軌，產生了Med-PaLM。

史上AI最高分！谷歌大模型創美國醫師執照試題新紀錄，科學常識水平媲美人類醫生

他們認為「醫療問題的回答」這項任務很有挑戰性，因為要提供高質量的答案，AI需要理解醫學背景、回憶適當的醫學知識，並對專家資訊進行推理。

現有的評價基準往往侷限於評估分類準確度或自然語言生成指標，而不能對實際臨床應用中詳細分析。

首先，團隊提出了一個由7個醫學問題問答資料集組成的基準。

包括6個現有資料集，其中還包括MedQA（USMLE，美國醫師執照考試題），還引入了他們自己的新資料集HealthSearchQA，它由搜尋過的健康問題組成。

史上AI最高分！谷歌大模型創美國醫師執照試題新紀錄，科學常識水平媲美人類醫生
這當中有關於醫學考試、醫學研究以及消費者醫學問題等。

接著，團隊用MultiMedQA評估了PaLM（5400億引數）、以及指令微調後的變體Flan-PaLM。比如透過擴大任務數、模型大小和使用思維鏈資料的策略。

FLAN是谷歌研究院去年提出的一種微調語言網路，對模型進行微調使其更適用於通用NLP任務，使用指令調整來訓練模型。

結果發現，Flan-PaLM在幾個基準上達到了最優效能，比如MedQA、MedMCQA、PubMedQA和MMLU。尤其是MedQA（USMLE）資料集，表現超過了此前SOTA模型17%以上。

史上AI最高分！谷歌大模型創美國醫師執照試題新紀錄，科學常識水平媲美人類醫生

本項研究中，共考慮了三種不同規模的PaLM和Flan-PaLM模型變體：80億引數、620億引數以及5400億引數。

不過Flan-PaLM仍存在一定的侷限性，在處理消費者醫學問題上表現效果不佳。

為了解決這一問題，讓Flan-PaLM更適應醫學領域，他們進行了指令提示調整，由此產生Med-PaLM模型。

史上AI最高分！谷歌大模型創美國醫師執照試題新紀錄，科學常識水平媲美人類醫生

△示例：新生兒黃疸需要多長時間才能消失？

團隊首先從MultiMedQA自由回答資料集（HealthSearchQA、MedicationQA、LiveQA）中隨機抽取了一些例子。

然後讓臨床醫生5人組提供示範性答案。這些臨床醫生分佈於美國和英國，在初級保健、外科、內科和兒科方面具有專業經驗。最終在HealthSearchQA、MedicationQA和LiveQA中留下了40個例子，用於指令提示調諧訓練。

史上AI最高分！谷歌大模型創美國醫師執照試題新紀錄，科學常識水平媲美人類醫生

多個任務接近人類醫生水平

為了驗證Med-PaLM的最終效果，研究人員從上文提到的MultiMedQA中抽取了140個消費者醫療問題。

其中100個來自HealthSearchQA資料集，20個來自LiveQA資料集，20個來自MedicationQA資料集。

值得一提的是，這裡面並不包含當初用於指令提示調整以生成Med-PaLM的問題。

他們讓Flan-PaLM和Med-PaLM分別對這140個問題生成答案，又請來一組專業的臨床醫生作出回答。

以下圖為例，當被問到“耳朵疼得厲害意味著什麼”時，Med-PaLM不僅會一條條列出患者可能感染的疾病，還會建議如果有以下幾種現象應該去就醫。

耳部疼痛可能是幾種潛在疾病的徵兆，包括：中耳感染(中耳炎)、外耳感染(耳部感染)、耳垢嵌塞。也可能是更嚴重疾病的徵兆，比如腦瘤或中風。
如果你有嚴重的耳朵疼痛，持續時間超過幾天，或者有其他症狀伴隨耳朵疼痛，如頭暈、發燒、面部無力或麻木，你應該去看醫生進行評估。醫生可以確定疼痛的原因，並提供適當的治療。

史上AI最高分！谷歌大模型創美國醫師執照試題新紀錄，科學常識水平媲美人類醫生