助力抑鬱症初篩!上海交大團隊構建Agent心理診所,論文一作線上展示demo,分享技術亮點

超神经HyperAI發表於2024-10-31

「我有動手打她,甚至好幾次掐著她脖子把她按到牆角。每次動完手,我都會後悔,我為什麼要動手,我為什麼控制不住自己,我是不是就是一個混蛋、一個瘋子、一個十惡不赦的人,但我真的不知道該怎麼辦。」這是 18 歲的皓然面對央視鏡頭時說出的話。

今年 8 月,央視新聞《相對論》記者莊勝春深入探訪青少年抑鬱的真實情況,皓然是其中少有的、願意直面鏡頭講述自己故事的青少年抑鬱症患者。

現如今,抑鬱症正逐漸年輕化,據《中國青年發展報告》顯示,17 歲以下兒童青少年中,約 3,000 萬人正受到各種情緒障礙和行為問題的困擾。青少年正處於一個動盪的年齡,心理相對脆弱,如果問題未能及時識別和干預,將會進一步演變為精神疾病。然而,目前心理健康醫療資源存在明顯不足,且大多資源主要集中在城市和大型醫療機構中,這種不均衡分配讓許多抑鬱病患者難以及時獲取醫療輔助。

對此,上海交通大學 X-LANCE 實驗室吳夢玥教授團隊與德克薩斯大學阿靈頓分校 (UTA)、天橋腦科學研究院 (TCCI) 和 ThetaAI 公司一同合作,搭建了一種自動化大模型對話 Agent 模擬系統——智慧體心理診所 AMC (Agent Mental Clinic),用於抑鬱症的初步診斷。

在第四期 Meet AI4S 直播中,HyperAI超神經邀請到了本研究論文的第一作者,上海交通大學跨媒體語言智慧實驗室博士蘭焜耀,他以「基於大模型 Agent 的精神健康問診和諮詢平臺」為題,向大家詳細介紹了該平臺的使用步驟、技術亮點、以及未來規劃等。

基於角色扮演,參與 Agent 心理診所模擬問診

過去,我們常用自測表 (如 PHQ9,HAM-D) 來確定自己是否需要進一步的醫療資源幫助,比如在入學或者入職時做心理健康測試,大家會發現,為了防止亂填表格,自測表中的很多問題會被重複詢問,以此確保前後的一致性。這會導致一些問題——工作量翻倍,使用者覺得枯燥乏味。

在這裡插入圖片描述

PHQ9 自測表

而現在,藉助人機互動的方式,即透過與對話機器人聊天來模擬問診過程,醫患交流變得更加有趣,隨著大語言模型的發展,對話體驗也在不斷提升。

2c33bb0d94be8db8496e45cc32cf617d.png

吳夢玥教授團隊提出的智慧體心理診所 AMC,可用於抑鬱症的初步診斷。其主要形式是模擬劇院演出,進行類似角色扮演的任務,在此過程中,使用者能夠與虛擬演員 NPC 對話,推動問診程序。具體而言,研究人員主要設定了 3 個「角色」:患者 Agent、精神科醫生 Agent、指導員 Agent。

在這裡插入圖片描述

使用者可以選擇這 3 種角色之一進行體驗。

這 3 個 Agent 的詳細資訊如下所示:

  • 患者 Agent 懷有一些情緒的困惑,需要尋找醫生來確認自身是否患有疾病,並確定是否需要進一步治療。研究人員賦予其不同的使用者畫像,讓他能夠模擬多個不同的患者,這些患者可能面臨不同的問題,也可能處於不同的年齡段。

6e427ed32d3309ce4906308f2ecadbd0.png

使用者畫像

具體而言,研究人員採用了一個名為 D4 的資料集,即透過社交媒體或公開平臺招募了一批潛在患者的畫像,涵蓋了性別、職業、主要訴求及年齡等資訊,這些畫像經過嚴格的審查和驗證後,再用於模擬患者。招募並培訓模擬患者和模擬醫生,雙方進行模擬問診對話。專業心理醫生對這些對話的質量進行評估,確保它們符合真實的醫患交流場景,倘若符合,專業醫生會進一步確定患者的抑鬱傾向和自我傷害傾向,這些診斷被分為 4 個類別,無障礙、輕度、中度、重度。

*D4 是全球第一個符合臨床標準的開源抑鬱症問診對話資料集
資料集地址:https://x-lance.github.io/D4/

在這裡插入圖片描述

收集 D4 的資料集

在初始化患者 Agent 時,研究人員會將上述問診結果提供給患者 Agent,但不會告知其抑鬱傾向和自我傷害傾向的具體數值,以免造成資料洩露。此外,患者 Agent 的病狀通常表現在飲食、睡眠、情緒、興趣、身體狀況等方面,但這些資訊不足以全面描述患者,他們還面臨著生活、工作、學習上的壓力,這些因素通常反映在對話中而非具體病症上。

為此,研究人員選擇用 GPT-4 來分析對話內容,並找出與事件相關的記憶片段,將這些記憶整合進患者 Agent 的 memory 模組,例如遭遇婚姻背叛、工作學習上的挫折等資訊。

  • 精神科醫生 Agent 的設定是沒有問診經歷的新人醫生,目的是測試該醫生能否在與患者交流的過程中獲得顯著進步。

在醫生端,初始階段不會給予 Agent 太多實踐經驗,但研究人員會提供一些基本的專業資訊,如提供單次發作抑鬱障礙、反覆發作抑鬱障礙的文字描述,作為醫生 Agent 初始記憶的一部分。隨著與患者交流次數的增加,醫生 Agent 的技能和經驗將不斷積累,從而提升問診水平。

  • 指導員 Agent 主要目的是為了控制醫患對話的流程,避免對話無限持續下去。未來,如果擴充套件到家庭諮詢場景,如父母與孩子或夫妻共同諮詢時,多個 Agent 之間的互動可能會產生衝突,指導員 Agent 可以幫助協調對話流程。

在問診流程中,醫生首先提出問題,患者作出回應,指導員隨後跟蹤患者的回答,並記錄其疾病症狀。比較患者症狀與 ICD-11、DSM-5 等標準測試之間的差距後,指導員將指出哪些問題尚未理清,並給予醫生下一步提問的指導。醫生基於這些指導對患者提出新的問題,形成一個內迴圈過程。在每次對話結束後,醫生會對患者的抑鬱傾向和自我傷害傾向作出評估。

af6d4360f61f31b3c6b108cbdec616e0.jpg

Agent 心理診所架構

指導員接收這些評估結果,並將其與 D4 資料集中儲存的真實醫生診斷結果做比較。根據對話歷史和診斷結果的差異,指導員會評估醫生在問診過程中的表現,包括語言表達、提問方式以及診斷準確性等,最後將反思所得的記憶儲存到醫生的診斷技能中,幫助醫生 Agent 在問診過程中獲得更多的經驗和成長。

值得一提的是,為了更好的檢索適應的記憶來處理對話和診斷,研究人員還提出了創新的三層式記憶結構和記憶檢索模組,即對話歷史、電子病歷、總結技能。

平臺持續最佳化,未來可期

在角色扮演過程中,研究人員也遇到了幾個問題,並將在未來進行最佳化。

首先是幻覺問題,即模型在對話中會產生與事實不符的回覆,這是所有大模型普遍存在的問題。例如,在過去一個月內,患者可能會有自我傷害的想法但並未實施,模型卻仍可能錯誤地回覆患者每月都會有自我傷害行為,這種誤報在長對話時更為明顯。為了應對幻覺現象,在遇到相似問題時,研究人員把使用者畫像裡的一些關鍵病症用作 Prompt,對模型做進一步的提示,但這種做法只能暫緩幻覺現象,未來仍需要進一步的努力。

另一個問題是語言風格,患者在初次就診時往往不會使用專業術語來描述自身狀況,但模型卻傾向於使用諸如「神經運動性遲滯」等專業詞彙,不符合患者在第一次進行問診時的表現。

7f80e679e965c59c631f9481c7fba617.jpg

語言風格案例、重複案例

此外,研究人員還觀察到,模型存在重複提問的現象。比如受過往歷史對話的影響,模型的開場白和結束語相對固定,問話方式也較為一致。但在現實的對話中,這些元素可能會發生變化,回覆也是多樣性的,如何提供恰當的安慰,使對話不顯枯燥,也是未來需要考慮的問題。

對以上內容進行最佳化,主要面臨的問題是評估標準的不一致、專業場景資料集稀缺等。去年 5 月,吳夢玥教授團隊的陳思遠博士曾基於大語言模型模擬醫患對話,研究結果發現,大模型會存在明顯的用語與人類用語不同的情況,透過修改 Prompt,提示模型用口語化的表達可以部分緩解這一症狀。

06a7eb57cad378ed743d4e4e5ea6284b.png

陳思遠研究成果

對於評估標準不一致問題,大家通常在「優質對話」上有一個普遍的認知,但在「中等」和「劣質」對話的評估標準卻存在顯著差異,這可能是個體評估時的主觀誤差,因此需要更大規模的人類測試。此外,很多研究使用優質模型如 GPT-4 為其他模型進行評估,但大模型作為黑盒,其解釋性相對薄弱,而人類評估員的質量和數量又有限,因此,目前仍缺乏一個大規模的自動化評測標準。

此外,不同應用場景所需的資料集各不相同,尤其是在專業場景中,可用的樣本量往往較少,這可能影響測試的可靠性,也限制了對大模型的訓練。對此,蘭焜耀認為,未來的一個解決方案是將心理學認知模型的概念引入角色扮演實踐中。如果能夠建立一個更通用的認知模型,以適應不同場景,並有效對映現有網路資源到這一模型,那麼後續的訓練集和測試集的獲取將變得更加容易,這是值得探索的方向。

「對我來說,我一直希望進一步探索的是,這些機率模型是否最終能夠形成一個完整的、獨立的人格思考,我希望能夠找到一種更穩定的方法來評估大語言模型內在的人格特徵。」 蘭焜耀表示,在他看來,既然這些模型學習了大量使用者語料、使用者資料,它們理論上應該能夠展現出一種人格特質,基於這一點,還需要探討的是,如何評估模型是否具備這種人格特徵,以及這種人格特徵如何影響其在回答問題、認知過程以及回應使用者需求(如心理安慰)時的表現。「如果我們能夠定位並區分出模型的人格特徵或人格模組,就能讓它適應不同的場景和需求,執行不同的任務,這比僅僅依靠 Prompt 調優更有效。」

用技術改變世界

「我本科是做影像領域的,研究生階段逐漸對自然語言處理產生了更大的興趣,當時的研究方向偏向智慧教育,期間遇到了有關學生個性化學習需求的課題。後來,在設計學生的學習伴侶過程中,我發現學生們不僅需要學術上的幫助,更需要心理上的支援。於是博士階段我加入了吳夢玥教授的團隊,希望在心理領域進行更深入的探索。」談及打造大模型 Agent 心理診所的初心時,蘭焜耀博士這樣表示。

吳夢玥教授是少有的具備心理學、電腦科學交叉學科背景的專業人才,在推進 AI 賦能精神疾病診療的過程中,她能夠精準地觸及患者的實際需求,並靈活地調整研究策略。

她所在的上海交通大學跨媒體語言智慧實驗室 (SJTU Cross Media Language Intelligence Lab, X-LANCE) 現已成為「跨模態語言智慧實驗室」,涵蓋視聽文語言資訊處理的核心研究領域,材料化學領域也有所涉及。團隊致力於做能夠改變世界的頂級技術研究,實驗室的學術信條:要用技術改變世界,首先必須是一個優秀的工程師,而一個傑出的工程師一定是一位科學家。
實驗室主頁:https://x-lance.sjtu.edu.cn

在這裡插入圖片描述

團隊合影

實驗室獲得了包括國家重點研發計劃、自然科學基金委優秀青年科學基金在內的諸多國家和企業專案支援,還與思必馳科技股份有限公司深度合作,成立了「上海交通大學思必馳智慧人機互動聯合實驗室」,擁有豐富的資料資源和大量的計算資源,包括數百張 H800、A800 和 A10 等 GPU 卡,是國際上極少數可以進行產業級大尺度資料分析和研究的人工智慧實驗室之一。

相關文章