當你正在觀看一部緊張刺激的動作電影,忽然好奇:
“那個角色到底是在哪一集說的那句話?”
“這裡的背景音樂是什麼?”
又或者在一場足球比賽中,你錯過了那個決定性的進球,卻又想再次回放。諸如此類的需求,如果僅憑人力尋找,無疑存在極大的工作量。
但是 AI 能夠為機器配置雙眼與大腦,讓它們能夠看懂影片、理解劇情,對於普通人來說,這不僅是提高了搜尋效率,更是擴充套件我們與數字世界的互動方式。
英偉達最新發布的 NVIDIA AI Blueprint 希望幫助人們解決這一問題。這是一種預訓練的、可自定義 AI 工作流,他為開發者構建和部署用於典型用例的生成式 AI 應用程式提供了一套完整的解決方案。
比如在英偉達提供的試用介面中,你可以選擇三個影片片段中的一個進行內容問答。
在幾輪測試過後,我們發現 Blueprint 對影片問答還是有不錯的效果的。你可以提問某個事件發生的時間,也可以提問某個物件的狀態。例如當我們提問 “工人在什麼時候掉落了箱子”,Blueprint 可以正確的回答出時間區間。二類似於 “叉車往哪個方向開” 這種基於連續過程的問題,Blueprint 也可以輕鬆應答。不過對於某些細節,例如 “誰撿起了掉在地上的箱子”,Blueprint 則給出了錯誤的答案。尤其令人遺憾的是,在試用過程中我們不斷遇到流量限制,無限驗證等問題,試用體驗可以說一言難盡。並且目前 Blueprint 仍然處於早期申請使用制階段,沒有辦法快速進行使用。經過一番搜尋和調研,我們在 Github 上發現了 OmAgent 這個專案,這是一個多模態智慧體框架,提供了同樣強大的影片問答功能。專案地址:https://github.com/om-ai-lab/OmAgentOmAgent 是一個開源的智慧體框架,支援簡單快速地面向裝置進行智慧體系統的開發,為智慧手機、智慧可穿戴裝置、智慧攝像頭乃至機器人等各類硬體裝置賦能。OmAgent 為各種型別的裝置建立了一個抽象概念,並大大簡化了將這些裝置與最先進的多模態基礎模型和智慧體演算法相結合的過程,使每個人都能基於裝置建立最有趣的 AI 應用。1. 基於圖的工作流編排,支援分支、迴圈、並行等複雜邏輯操作;2. 原生多模態,提供對音檢視文等多種模態資料的支援;簡單來說,開發者可以基於 OmAgent 設計開發基於圖工作流編排的面向裝置的原生多模態智慧體。這裡的裝置不光包含智慧手機,智慧可穿戴裝置(智慧眼鏡等),智慧家居,還包括命令列以及 web 端,開發者只需要專注於智慧體本身,而不用分神處理裝置。OmAgent 專案裡提供了 6 個示例專案,由淺入深展示瞭如何搭建一個智慧體的完整過程,其中影片理解智慧體工作流被 EMNLP 2024 主會收錄,實現了和 Blueprint Demo 相似的功能。根據專案文件只需要進行簡單的配置就可以將 OmAgent 部署執行在本地環境。我們首先對 Blueprint 提供的測試影片進行預處理,在這個階段影片會被分解為若干個片段,每個片段會被大模型進行總結,並向量化儲存在資料庫中。接下來使用之前的問題對 OmAgent 進行測試,可以看到智慧體可以正確定位事件以及發生的時間。Q: When did the worker drop the box?Q: Which direction did the forklift go?Q: Who picked up the box that fell on the ground?A: 接下來我們進行更復雜的測試,OmAgent 可以支援音訊資訊以及超長影片索引。我們選取了最近大火的劇集《雙城之戰》第二季第一集作為素材,基於其中的畫面和劇情進行提問。可以看到,即使面對如此複雜的影片素材,OmAgent 依然可以遊刃有餘。除了影片問答之外,OmAgent 的最大特點是可以將智慧體直接應用在硬體裝置上,我們也對此進行了測試。使用專案提供的 app,我們可以執行示例專案中的穿衣搭配推薦智慧體。智慧體會根據你的需求,以及你已有的衣櫥資訊,為你推薦合適的穿衣建議。在這個過程中智慧體會和使用者進行多輪溝通以確定使用者需求,並最終返回最合適的搭配。如果你也剛好試用過 OmAgent,歡迎在評論區交流。