任意論文一鍵變播客,谷歌正式釋出Illuminate,它能重構研究者的學習方式嗎?

机器之心發表於2024-09-09
像聽書一樣「讀」論文。

先來聽一段英文播客,內容是不是很熟悉?任意論文一鍵變播客,谷歌正式釋出Illuminate,它能重構研究者的學習方式嗎?
是的,這倆人就是在聊那篇《Attention is All You Need》。在 4 分半的對話裡,他們介紹了論文的核心內容,一問一答,聽上去相當自然。
圖片
播客原址:https://illuminate.google.com/home?pli=1&play=Pa5iGH1___bGy1

實際上,播客中對談的雙方都是 AI,生成這段四分鐘音訊內容的產品是 Illuminate,來自谷歌。

Illuminate 是一個將學術論文轉化為人工智慧生成的音訊討論的專案。已有使用者曬出自己的試用結果,效果不錯:
圖片
谷歌實驗室在邀請使用者嘗試「前沿技術」方面有著悠久的歷史。Illuminate 最早在今年五月的 Google I/O 大會上亮相,當時谷歌重點強調了自身大模型的多模態和長文字能力。但那時 Illuminate 只是一個私人測試版本。

顯然,谷歌未必是第一個想出這個點子的公司,但卻是第一個做出這個產品的公司:
圖片
當時 Illuminate 的宣傳點是「按照自己的方式學習」。因為 Illuminate 可以使用 AI 將複雜的研究論文轉化為引人入勝的音訊對話,從而「重新構想學習」。

想法很簡單:由谷歌的 LLM Gemini 生成論文摘要和問答,在引入兩個人工智慧生成的聲音,一個男性採訪者和一個女性專家,分工完成一個簡短的採訪,描述論文內容。

目前,在 Google Illuminate 網站上,已經能夠收聽到一些經典研究的播客樣本。

圖片

這個產品在什麼場景下用呢?

設想,你可以在運動或開車時「聆聽」那些看不過來的新增研究論文核心內容。
圖片
圖片同時,播客還可以很容易地調整為其他敘述形式,以適應不同的使用場景。

也許你想馬上動手製作一期屬於自己論文的播客,別急,讓我們看看使用說明。

如何將論文一鍵轉化為播客訪談?

開啟 Illuminate,介面如下所示。需要注意的是,使用者需先申請候選名單,透過稽核後才能使用。

目前,Illuminate 針對已發表的關於電腦科學的論文進行了最佳化。
圖片
體驗地址:https://illuminate.google.com/home

官方網站上列舉了很多示例,我們以經典論文《Attention is All You Need》為例。首先,你可以檢視原始論文,點選「View Source」直達論文,這樣一來,使用者既可以回顧論文內容,也可以根據播客音訊進行學習。

圖片

接著點選「play」選項,在介面下方是生成的兩個 AI 對話的訪談。這是 Illuminate 的關鍵部分,對話內容圍繞研究展開。

我們還是以《Attention is All You Need》為例,對話過程涉及很多知識點,可能是你在讀論文時沒有注意到的,比如論文的核心概念是什麼。生成的音訊內容乾貨滿滿,會談到「序列模型 RNN、LSTM, 這些模型在語言處理、翻譯和文字摘要等任務中佔據主導地位,但這些 RNN 在處理長序列時有明顯的不足,因為它們需要一步步處理資訊,這是一個重大限制。

而這篇論文透過引入一種名為 Transformer 的模型來解決這個問題,該模型使用一種稱為自注意力的機制,可以一次性處理整個序列,從而識別出哪些部分最相關…… Transformer 還引入了多頭注意力機制,它不僅僅使用一個注意力機制,而是使用多個注意力頭……」

聽完整段對話,你對論內容會有一個重新的認識。

隨著 Illuminate 的不斷完善,以後遇到新論文,就可以先讓 Illuminate 幫你做好預習,在之後的閱讀過程中,就會輕鬆很多。
圖片
對於生成的音訊內容,如果你沒聽清,可以後退數秒,也可以前進幾秒,甚至還可以控制語速,0.5 倍、2 倍速都可以選擇。
圖片
點選「share」按鈕,你可以將播客內容分享到各個平臺。
圖片
下面是我們將對話內容分享到 X。你不用編輯任何文字,分享的內容都是自動生成的。這樣一來,其他人也可以點開連結進行檢視、學習。
圖片
除了論文,Illuminate 處理一整本書也是可以的,官方網站上已經列舉了很多名著,如《傲慢與偏見》《本傑明・富蘭克林自傳》等等。
圖片
不過,整體看下來,Illuminate 還是有些小缺點,比如生成的對話都是英文,音訊不能下載,也沒有相應的字幕。或許,不久的將來,我們會看到更加使用者友好的 Illuminate。

想要使用的小夥伴,可以提前申請了。

相關文章