理財AI勇闖「無人區」:理解專家、成為專家

机器之心發表於2024-07-08

這是一條少有人走過的路。

用十年時間成為全球線上服務數億使用者的財富管理平臺後,擺在螞蟻財富面前的是一段少有人走過的路:

這 5 億活躍使用者第一次動動手就能接觸到各類普惠的理財產品,但真正理財行為成熟的僅佔兩成。而放眼中國 7.2 億基金投資者裡,每 3600 人才能分到 1 位傳統理財顧問來服務。投多顧少,對很多普通投資者來說,往往處於專業服務的「無人區」。俗話說,「瞎子引瞎子,二人掉深淵」,使用者側對專業服務的需求呼喚技術的進步。

2020 年,「 AI 理財助理」支小寶正式對外上線,螞蟻財富希望能補足行業服務的空白。不久,螞蟻財富又投入 50 個人年—— 一個作業系統的開發成本——再造支小寶 ( 1.0 )。

誰曾想半年後,這位剛達專業水準的 AI 助理,又率先搭上大模型的快車,從檢索式 AI( 1.0 )進化到生成式AI( 2.0 ),讓 4300 萬普通投資者先一步擁有了自己的「私人理財專家」。

據螞蟻財富保險智慧服務部總經理陸鑫介紹,技術團隊用最新的大模型技術去實現支小寶這樣一個嚴謹產業應用時,做了三層工作:底層是面向嚴謹應用定製的鳳凰大模型 Finix,中間層是模仿專家思考和工作流程的 agentUniverse (下文簡稱 aU )專業智慧體框架,兩者結合支撐了最上層支小寶有效的投顧服務。

一、空降熱搜,AI 的話大家聽懂了

兩個月前,金價狂飆,連帶新版支小寶空降熱搜。

圖片

「能不能買?」「要不要買?」使用者的諮詢如潮水般湧來。一個月內,支小寶已發出上萬次針對黃金的理性投資提醒。雖有些「爹味」,但支小寶卻真的讓很多盲目跟風的人冷靜了一下。在熱搜話題裡,有人甚至調侃,「 AI 幾句話,立省 10 萬。」

圖片

熱搜似乎只是一個縮影,實際上反映出大語言模型煥新理財助理後產生的巨大變化——提醒變得通俗易懂,讓人聽得進去。新版支小寶上線不久,使用者已超四千萬。

「黃金現在能買嗎?」面對這個大家普遍關心的問題,支小寶很快給出直觀全面的分析,提醒在高點保持觀望,不急於馬上增持。論據上,既綜合了平臺上幾十家基金公司的共識和分歧、利空利好因素,也考慮了個人持倉。 理財AI勇闖「無人區」:理解專家、成為專家

同樣的問題扔給通用大模型,TA 的回答更像隔靴搔癢,因為不會對我們的問題做任何假設,所以,說了很多,卻又像什麼都沒說。

圖片

面對「小米現在怎麼樣」這樣有些沒頭腦、模糊的查詢,支小寶現在也能給出滿意的答覆。 理財AI勇闖「無人區」:理解專家、成為專家

支小寶底層引入嚴謹應用大模型 Finix 和專業智慧體框架 aU 後,金融意圖識別準確率從 80% 提升到 95%,使用者的平均對話輪次增加了約 40%。這無疑是質的提升,技術團隊說到,面向嚴謹應用去定製大模型技術後,讓支小寶不僅「更像一個人」還能「像一位專家」,能解決使用者的真實疑惑。

餘音未落,我們瞥見支小寶首頁右上方顯示,已有 600 多萬人發起了提問。

二、「模仿專家」的關鍵:意圖理解的飛躍

在「模仿專家、成為專家」的「職業規劃」下,支小寶的技術發展也被分為兩層:一層,讓支小寶模仿專家去理解使用者;第二層,讓它不再被動等待問題,透過主動服務使用者,成為專家。

「模仿專家」準確把握使用者意圖,這在投顧服務中尤其具有挑戰性。

不同於搜尋場景中明確詳細的使用者 query,理財對話中,使用者的表達往往簡單模糊,如「小米現在怎麼樣」、「現在黃金怎麼樣」,乃至錯字或縮寫,如「推薦一支軍工基」。前大模型時代,AI 依靠關鍵詞匹配或淺層語義分析,很容易判斷失誤,導致服務偏離使用者真實需求。

支小寶 1.0 嘗試過用上下文建模緩解這一問題,終究不過揚湯止沸。接入大語言模型後,基於大語言模型的多智慧體( Agent )框架(「仿金融專家多智慧體協同推理」)徹底顛覆了傳統從 NLU 到生成的 Pileline 。

當你問「小米現在怎麼樣」,可以腦補這樣一段畫面,支小寶內部的多個 Agent 將各司其職:

一個使用者服務 Agent 結合服務歷史和使用者畫像,生成多個可能的意圖假設,一個知識檢索 Agent 為每個假設蒐集背景知識和相關資訊,一個專業顧問 Agent 從市場和投顧專業視角補充觀點和建議。

透過多專家的「協同推理」,這些來自不同 Agent 的資訊聯合起來確定最可能的使用者意圖,置信度最高的意圖被認定為使用者真實意圖。最後,Agent 們協作生成最終回答。

圖片

這種基於大語言模型的多智慧體框架,很容易讓人聯想到電影《頭腦特工隊》中人腦的運作。樂樂、憂憂、怒怒、厭厭和驚驚,各司其職,共同決定主人萊莉對外界刺激的反應。

新的解題模式與傳統方式有兩個明顯不同。

新框架下,系統不是直接做出判斷,而是沿著分歧的「枝條」、「分叉」,推理各種可能。「你可以理解成是一個地圖,或者是一棵帶有分支的樹,然後沿著分支漫遊。」技術團隊打了個比方。

另外,得益於「協同推理」,即便個別 Agent 判斷失誤,其他 Agent 也可以透過協同推理予以糾正,大大提高了系統的魯棒性。

「我們利用專家多智慧體的專業知識和推理能力,吃掉了使用者表達中不可避免的的模糊和存疑,最後,用更大規模的嚴謹應用大模型兜住了前面所有可能的誤差。」技術團隊解釋道,將對話系統的基礎從傳統 Pipeline 升級到嚴謹應用大模型 Finix和專業智慧體框架 aU 的組合後,金融意圖識別準確率從 80% 躍升至 95%。

值得一提的是,在「仿金融專家多智慧體協同推理」過程中,「使用者畫像」扮演著關鍵角色,這也是螞蟻財富的傳統強項。

大模型技術突破之前,他們就能透過分析使用者在平臺上的有效脫敏資訊,包括理財行為、理財偏好等生成使用者畫像。1.0 階段就沉澱了多個專業的金融模型,能在平臺噪音中提煉使用者動機,預測使用者行為。

現在,支小寶還有一個專門團隊負責使用者畫像生產,藉助大語言模型使用者畫像的顆粒度和洞察深度又被提升到了新高度。

三、「成為專家的 AI 」: 不止被動解答還能主動搭話

螞蟻財富很早就涉足到理財這個垂直領域的自然語義理解,投入很多精力去讓機器人聽懂問題,但結果發現大部分人在專業嚴謹應用中難以開口問出有效問題,所以支小寶在技術上做了一些嘗試,跳出問答介面,成為專家,去主動服務,詢問使用者是否需要幫助

在支小寶問答首頁,大量使用者真實問題聚合成的「猜你想問」、「熱門問題」很接地氣,能免去小白和 i 人使用者「難以開口」的尷尬。

圖片

「幫我挑只新能源基金」,接到命令後,支小寶迅速呼叫各類 API,篩選出 10 只備選基金,提示風險並表達對新能源行業的中性立場,也主動提供看好的消費行業基金供參考。

完成對話後,支小寶還會主動預判下一步需求,如「看看消費行業的基金」或「新能源行業的後市展望。」選擇其中一個,對話會繼續開展下去。理財AI勇闖「無人區」:理解專家、成為專家

除了中心化的對話視窗,現在的支小寶還能深入到使用者理財場景中,作為專家主動和使用者互動,發起對話,引導 TA 進入下一個服務場景。

比如,使用者檢視基金持倉陣地、進入基金詳情頁時,支小寶會主動搭話,問詢是否需要解讀漲跌,或者調整持倉。如果主動引導「命中」使用者需求,讓他們覺得有用,使用者很可能會繼續提問,推動服務走向深入。

圖片

這種多輪溝通的能力,正是破解金融服務難題的關鍵所在。這就像我們在看病求醫問藥的時候,需要醫生和我們的多輪複雜溝通才能摸清「癥結」,「開具處方」。

技術團隊進一步解釋說,大模型壓縮了海量的世界知識和金融知識,有一定的推理能力,而專家智慧體引入行業專家的 SOP 進一步強化了這種推理能力,讓支小寶學會預測使用者在享受某項服務後,下一步最可能需要什麼。

過去,由於技術侷限性,支小寶追求對話準確性,並不會特別關注輪次。現在,輪次已經成為衡量服務深度的重要指標:使用者與新版支小寶的對話輪次提升了約 40%。

四、對齊:成為「專家」的關鍵一環

在向「專家」進階的路上,AI 其實也跟人一樣努力。每個月,技術團隊都會拿出包含 2000 多個問題的評測資料集,讓人類專家和支小寶來一場雙盲 PK,看看後者有沒有長進。

現在,面對「巴菲特現在為什麼加倍下注油氣股票 」、「巴菲特為什麼減持比亞迪」、「橋水基金的投資哲學是什麼」這樣的問題,支小寶也能像金融專家一樣解讀。

通用大語言模型雖然可以透過檢索增強生成( RAG )迅速捏合一個摘要式答案,卻難以像分析師一樣深入剖析問題。 理財AI勇闖「無人區」:理解專家、成為專家

回答「巴菲特現在為什麼加倍下注油氣股票 」。

讓支小寶向專家對齊,正是這支隊伍的核心工作,其中一個極其重要的工作就是「對齊訓練」,這也是 ChatGPT 獲得成功的關鍵。

不過,「理財專家」定位使得支小寶的對齊水位需要比 OpenAI 的「 3H 」( Helpful、Harmless、Honest )更高,面向理財這樣的嚴謹應用,支小寶技術團隊「由內到外」向專家對齊,對齊標準從 3H 升級為嚴謹性和專業性,整體工作也可謂細緻入微。

首先,對齊工作背靠兩個核心訓練環節——監督微調( SFT )和基於人類反饋的強化學習( RLHF ),前者明確指示模型應該完成哪些任務,後者教導模型如何以人類偏好的標準完成這些任務。

為了讓支小寶能嚴謹地完成任務,大模型底座就需要努力克服眾所周知的模型幻覺。類似於駕照訓練讓司機對齊了安全駕駛的標準,支小寶底層模型也對齊了嚴謹的標準。在監督微調( SFT )階段,他們從資料、量綱、實體、關係、事實、觀點和計算等維度拆解「嚴謹」,為不同任務場景準備相應的資料集,教會支小寶如何嚴謹地處理數字、觀點、實體,保障它們的可信可溯源。

在基於人類反饋的強化學習( RLHF )環節,他們進一步訓練大模型對嚴謹性和專業性的自發遵從,這也是讓大語言模型勝任嚴謹應用的關鍵。新版支小寶會在缺乏資訊時「認慫」,避免強答;會像人類專家一樣,提供專業分析的同時,識別和安撫使用者情緒,這都歸功於這個訓練環節為系統對齊了專家的回答標準。

接受完監督微調( SFT )和基於人類反饋的強化學習( RLHF )「調教」的大語言模型,就像手握駕照的司機,上路總歸有危險,還需要安全的汽車和交通系統。為此,技術團隊也安排了資料鏈路、智慧體反思、安全圍欄、攻防巡檢等系統性措施進一步保障支小寶的嚴謹性。

不過,知易行難,最大的挑戰其實是構建專家水平的高質量指令集所需要的定力和資源——當你為大語言模型寫好劇本後,接下來就要準備相應的指令資料(和銀子)。

技術團隊花了大量心思構建金融能力指令集。他們借鑑了布魯姆模型,這是教育心理學中一種廣受認可的能力評估方法,提供了清晰的認知發展路徑,將能力培養劃分為記憶、理解、應用、分析、評價、創造等遞進階段,為訓練過程提供了明確主線。

透過將這六個認知層次與不同業務場景交叉對應,技術團隊詳細定義了支小寶在每個場景和認知階段應掌握的具體技能,並據此設計訓練任務,最終形成了一套專業的金融能力培養方案。

在資料標註上,螞蟻財富也投入了大量精力和資源。支小寶底層的嚴謹應用大模型面向專家進行對齊訓練,這意味著只有專家水準的人才能滿足標註工作的嚴謹性和專業性,他們不僅為此組建了一個具有專業標註能力的團隊,還維護著一支具有金融和演算法複合能力的技術隊伍,專門針對高難度問題構建精準的金融語料和資料,確保支小寶能夠在複雜的金融領域遊刃有餘。

五、接力:「原生大模型技術人員」

時間倒轉 2018 年,支小寶的「前身」——內部代號為「安娜」的智慧理財 AI 專案啟動,恰逢 OpenAI 的 ChatGPT 前身 GPT-1.0 開始研發。當時,AI 的真正威力尚未完全釋放。

支小寶的初期團隊匯聚了 NLP、CV 和工程技術等多領域的精英。他們懷著探險家的熱情出發,卻很快發現前路崎嶇難行。每一步都像在荒野中開闢道路,即便親眼目睹大語言模型帶來的巨大突破,仍難以完全信任它的潛力。過往積累的知識和技能彷彿一夜貶值,也徒增一些不安與壓力。

如今,這個技術團隊也不斷擴充著新鮮血液,一群「原生大模型技術人員」正成為團隊中堅力量。這些人能丟掉之前的技術包袱,天生以大模型思維解決問題,彷彿從不擔心技術的邊界,在不知不覺中擴充了曾經的技術邊界。

技術更迭如同潮水,一浪高過一浪。就像多年前支付寶的掃碼支付,當那聲清脆的「滴」響起,曾經令人驚歎的技術複雜性瞬間歸於平靜。總有一天,轟轟烈烈的大模型還有它的原生技術人員,也將沉澱為後代生活中一個平凡的 Token。

但更多的普通人,已經就此獲益。

相關文章