昨天,就在 OpenAI 12 天連發的第一天釋出火遍全網的同時,微軟也釋出了一款重量級 AI 產品:Copilot Vision。這是一款整合在 Edge 瀏覽器中的 AI 助手,可以與你實時「協作上網」,並能隨時提供幫助。
微軟 AI CEO Mustafa Suleyman 的推文。
據微軟部落格介紹:「Copilot 現在可以理解您線上活動的全部上下文。當您選擇啟用 Copilot Vision 時,它會檢視您正在瀏覽的頁面,並與您一起閱讀,然後你們可以一起討論遇到的問題。瀏覽不必再是一種只有您和所有標籤頁的孤獨體驗。」需要注意,目前 Copilot Vision 僅有數量有限的 Pro 版訂閱者可以搶先使用。Copilot Vision 釋出後,雖然沒能得到 OpenAI ο1 正式版那樣的關注,但也有些 Copilot Labs 的 Pro 使用者進行了嘗試。Copilot Vision 釋出後不久,微軟 AI CEO Mustafa Suleyman 還接受了著名 AI Newsletter「The Rundown AI」運營者 Rowan Cheung 的專訪,他在其中介紹了 Copilot Vision 的基本功能和工作方式以及其它很多話題。他在介紹 Copilot Vision 時使用了「AI 伴侶(AI companion)」這個詞。 詳細採訪請訪問:https://x.com/rowancheung/status/1864716671317086384AI 伴侶正是他們想要達成的目標。Suleyman 指出:「在我看來,AI 伴侶能聽你所聽,見你所見,本質上就是陪同你一起生活。你的 AI 伴侶有能力記憶你說過的一切,理解你瀏覽的網頁內容,還能夠像人一樣與你交談。」值得一提的是,Copilot Vision 是一項完全可選的體驗,使用者必須明確授予 Copilot Vision 許可權才能讀取 Microsoft Edge 瀏覽器中的網頁。例如,讓它幫助你計劃如何在博物館度過有趣的一天,Copilot Vision 會在你參觀之前指出你需要知道的所有資訊。或者 Vision 可以幫助你進行假日購物,指出頁面上哪些產品符合自己的需求和偏好。下面更詳細地展示了一個旅行規劃的演示:Vision 甚至可以簡化資訊和學習。觀看 Vision 幫助你學習如何玩新遊戲,例如 Geoguessr。 至於 Copilot Vision 的工作方式,微軟暫時並未詳細說明,但 Suleyman 在接受採訪時稍微透露了一些。Copilot Vision 包含三個元件:- 第二,它能即時讀取你正在瀏覽的網頁上的所有文字,並且無需使用者執行滾動等操作。
- 第三,它能看到你能看到的所有圖片,實現多模態理解。
Suleyman 還簡單預測了十年後人們的智慧生活。他指出,現在人們常用的計算機圖形介面就是為不懂程式設計的人設計的,而十年之後,這些東西將被 AI 接替,因為 AI 助手或 AI 伴侶將有能力理解有關你的一切,不管是情緒狀態還是日程安排,又或是興趣愛好、個人知識圖譜、人際關係。它們還能根據我們日常的所見所聞、所思所想進行推理。AI 將「不僅僅是一個互動介面,而是一個新的連線面,將會有根本性的不同。」Suleyman 甚至將其比作是一個新的數字種族(new digital species),就像是人們的一個家庭成員或第二大腦。微軟也強調了對安全的重視,該公司稱在構建 Copilot Vision 時,將使用者的安全、控制和隱私作為首要任務。首先,Vision 完全是選擇性加入的,因此使用者可以決定何時啟用或開啟它,作為使用者在網路上的第二雙眼睛。此外,一旦使用者結束與 Vision 的會話,有關使用者所說內容以及使用者與 Copilot 共享的上下文的所有資料都將被刪除。每次使用 Vision 時,使用者的資料都會根據 Microsoft 隱私宣告進行處理和保護。僅記錄 Copilot 的響應以改進安全系統。目前,Vision 僅能與一組選定的網站進行互動。隨著時間的推移,微軟會謹慎地擴大這個網站列表。微軟承諾,Vision 不會捕獲、儲存或使用來自出版商的任何資料來訓練模型。對於這個被 OpenAI o1 光芒掩蓋的產品釋出,你有什麼看法?https://www.microsoft.com/en-us/microsoft-copilot/blog/2024/12/05/copilot-vision-now-in-preview-a-new-way-to-browse/https://x.com/rowancheung/status/1864716671317086384?t=688