今年 3 月份,英偉達 CEO 黃仁勳舉辦了一個非常特別的活動。他邀請開創性論文《Attention Is All You Need》的作者們齊聚 GTC,暢談生成式 AI 的未來發展方向。
「我們所處的領域如今所享有的一切都可以追溯到那一刻…… 你們改變了世界……」黃仁勳在現場說道。
對於 AI 這種科研導向的行業來說,下一次改變世界的機會,可能也藏在某篇論文裡。
因此,我們在這個圈子裡看到了一個不尋常的現象:一些非技術背景的 CEO 們也開始熬夜讀起了論文,希望藉此來降低決策的試錯成本。
CEO 尚且如此,領域內的其他從業者就更不用說了。前段時間,OpenAI、谷歌、Meta 連放大招,一些創業公司也在不斷推出新模型、新方法,相信很多從業者都會感覺論文多到看不過來。
把論文丟給 AI 去總結是現在常用的閱讀方法,但很多 AI 總結的內容缺乏清晰的層次以及對於創新點、侷限性的詳細描述,我們需要經過幾輪追問才能形成對於論文的完整認知。而且,一些關鍵的模型架構圖、實驗結果圖還要自己去論文裡找,實際節省的時間非常有限。
在騰訊「元寶」的最近一次更新中,我們看到了這些問題的解決方案。他們新推出的「深度閱讀模式」支援長文精讀,能夠輸出模組化的、圖文並茂的解析,非常適合用來讀論文。
為了驗證這一新功能的效果,機器之心進行了一手實測。
論文「精讀」,精在哪兒?
用 AI 讀論文是一種怎樣的體驗?很多時候是:你丟給它一個 PDF,它返回一段總結 + 若干條概述(有時候可能高達 10 條)。這些資訊確實有幫助,但有時候,你很難分清哪些是亮點,以及論文解決了什麼、沒解決什麼,有哪些核心問題值得細看。
我們實測發現,「元寶」是透過提供一系列模組化、結構化資訊來解決這些問題的。
以我們測試的一篇 SIGGRAPH 論文為例。如果你直接把論文丟進去,它返回的總結和其他 AI 區別不大。不過,只要你耐心往下拉,就會看到一個「深度閱讀該文件」的按鈕,這才是「一鍵直達」論文精讀的開關。
與之前總結論文的介面不同,精讀頁面會把論文拆解得非常有層次,研究背景、研究方法、實驗設計、結果分析、總體結論各自被組織成一個模組,很像機器之心平時介紹論文的佈局。所有這些都可以透過左邊的大綱迅速跳轉。
別看每個模組字不多,其實這些字是非常有資訊量的。比如在研究背景這個模組,「研究難點」段落僅用三個短句就描述了四個難點,「相關工作」更是對第二章「related work」的高度濃縮,一段話就把該領域的主要技術路線介紹清楚了。所以,在讀完這個模組之後,我們能基本搞清楚論文研究的是一個什麼問題,面臨的是怎樣一個研究現狀。
除了這些常規的結構化資訊,元寶的精讀還有一個令人眼前一亮的設計 —— 它會把論文的優點與不足列出來,方便研究者迅速瞭解自己能從這篇論文中學到什麼,還有什麼問題值得繼續研究。
為什麼這個功能如此重要?中國臺灣清華大學教授彭明輝在關於論文閱讀的一篇文章中曾經寫道,論文和課本不同,課本會提供別人整理、組織好的系統性知識,而論文要求讀者自己從無組織的知識中檢索、篩選、組織知識。其中,分析既有研究優缺點的能力尤其重要,這是批判性思維的關鍵部分,也是學術研究中自我提升的重要途徑。元寶透過快速分析和總結論文的優缺點,可以幫助研究者節省大量篩選和初步理解的時間,使他們能夠更快地聚焦於與自己研究直接相關的論文。
不過,如果你覺得前面這些資訊太繁瑣,你也可以直接跳轉到最後的「關鍵問題與解答」模組。這裡會列出幾個最關鍵的問題,讓你快速瞭解到論文的價值,進而判斷是否值得花時間去讀原文。當然,之前的很多 AI 助手也會在答案末尾呈現一些關鍵問題,點一下就能得到答案,但如果你是一名初學者或者跨學科背景的讀者,你可能不太容易判斷哪些問題比較關鍵。元寶這種直接呈現的方式感覺更加直觀。
原圖原數,誰說 AI 讀論文不能配圖?
在讀論文時,很多人都有一個習慣,一邊看圖,一邊看論文描述。這樣理解起來更快、更容易。但是,現在市面上大部分 AI 應用返回的都是文字結果,想看圖的話需要自己去原文裡找。
我們在測試中發現,元寶是為數不多的直接把論文圖截出來並放到段落對應位置的 AI。比如,如果在某個模組講架構,那它會把對應的架構圖放上:
如果在某個模組講實驗結果,那它會把對應的圖表放上:
眾所周知,大模型的幻覺問題現在還沒有辦法完全解決。因此,這種原圖原數的呈現其實是一種更加可靠的輸出方式,方便讀者隨時驗證模型的答案,在用作參考時更加保險。
此外,我們還發現,如果你有寫部落格等對外輸出的需求,元寶還可以幫你繪製圖表,而且你不需要告訴它資料去哪裡找,它能自己定位到論文中的相關表格,並將資料提取出來進行繪製。這一功能可以透過精讀頁面右側的「提問」按鈕來喚起。
隨時隨地想讀就讀,誰說讀論文障礙重重?
除了結構化的資訊和圖文並茂的輸出,我們在測試中還發現,元寶其實有一些非常實用的小功能,能讓讀論文這件事變得更加方便。
首先是劃詞翻譯和搜尋,這是「原文」閱讀介面的兩個實用小功能。劃詞翻譯可以幫助英語不好的讀者隨時隨地掃清語言障礙,劃詞搜尋則更進一步,像是把元寶的搜尋功能做成了一個外掛,可以隨時搜相關資訊。而且,元寶給出的解釋不只是簡短的總結,還有模組化的展開,真是把「結構化」、「有資訊量」做到每一個細節裡了。
其次是「離線閱讀」。這個功能的實用之處在於:它可以讓你在「飛航模式」下回看精讀內容及原文,不浪費一點碎片時間。這讓航空公司在與高鐵的競爭中扳回一局。說不定,研究者們的下一個靈感就是在飛機上回看精讀時產生的呢。
最後一個小功能是「計算器」。前段時間,AI 因為分不清 9.9 和 9.11 哪個大而引發了很多討論。在元寶中,我們發現它整合了計算器功能,能夠確保根據準確的計算結果來生成答案。這種功能在我們閱讀實驗資料時非常有用。
長文精讀的背後:原來有專家指導
根據官方資訊,騰訊元寶的這次升級主打「長文精讀」,可原生支援最長近 50 萬字的輸入。我們在測試中用到的論文遠遠沒有達到這個長度,日常所接觸的論文大多也達不到。所以用元寶來精讀論文,大部分情況下上下文視窗都是夠用的。它的模組化、圖文並茂輸出以及劃詞搜尋、翻譯等小功能也讓讀論文這件事真正變得方便、高效,向著「實用性」又邁近了一步。
這種進化離不開其背後模型 —— 騰訊混元大模型的升級。據悉,為了在專業領域中提升模型的專業性和實用性,騰訊混元團隊專門邀請領域專家概括各專業領域的核心技能,並制定了專業問題的回答標準,使得模型能夠作為真正的領域專家來提供服務。所以我們用下來就感覺,元寶是知道論文讀者需要什麼資訊以及資訊應該如何呈現的。
除了論文,這個新功能還可以用來精讀財報、研報等長文字。在這些場景中,它可以從多個維度梳理資訊,根據報告內容生成杜邦分析圖等專業圖表,讓不懂這些檔案的人也能看懂企業的財務狀況等資訊。
不過,就讀論文這個場景來說,元寶依然存在一些改進空間,比如在閱讀原文介面缺乏完整的原文 - 譯文對照,對公式的識別有時不夠準確等。我們也希望元寶能在未來的更新中改進這些問題。
但作為一款推出僅兩個多月的應用,騰訊元寶的表現已經有點超出預期。它的進化軌跡讓我們看到,大模型將如何一步一步變為新的生產力。我們也期待這個 APP 能給我們帶來更多驚喜。