AI 在用| GPT-4、Claude 3 帶你看懂宜家安裝說明書

机器之能發表於2024-03-25

以大模型、AIGC為代表的人工智慧浪潮已經在悄然改變著我們生活及工作方式,但絕大部分人依然不知道該如何使用。

因此,我們推出了「AI在用」專欄,透過直觀、有趣且簡潔的人工智慧使用案例,來具體介紹AI使用方法,並激發大家思考。

我們也歡迎讀者投稿親自實踐的創新型用例。

今天,我們分享 X 使用者 @gabchuayz 的案例—— 利用 Claude 3 Opus (最貴的一款)視覺推理能力,讀懂宜家傢俱安裝說明書!

圖片

圖片

  • 案例地址:

    https://twitter.com/gabchuayz/status/1766143549794357458

圖片
作者透過 Workbech 來接入 Claude 3 Opus

首先,進入 Claude 3 Opus ,輸入提示( Prompt ):

  • you are a friendly assistant

這也是 OpenAI 官方認可寫好 Prompt 的重要策略之一,讓模型充當某個角色,它往往會表現地更專業,回答也更明確。

然後,上傳說明書圖片並附上簡單文字提示:

  • These are instruction manuals. List out the steps clearly.

這位作者按順序(步驟 1 — 14 )上傳了七張說明書圖片。這是其中一張圖片的內容:

圖片來自@gabchuayz

這是 Claude 3 Opus 返回的結果:

圖片來自@gabchuayz

下面是翻譯過來的內容。對於不善閱讀圖片說明的使用者來說,這個回答顯然大幅降低了安裝門檻,它甚至識別出了螺絲的型號。

  1. 使用提供的工具(100092),將2顆螺絲(104521、104522)固定在圓形零件上,如圖所示。

  2. 使用4顆螺絲將錘形零件(101339)連線到步驟1中組裝的結構上。

  3. 使用4顆螺絲將另一個錘形零件(101339)連線到相反的一側。

  4. 使用4顆螺絲連線兩側的零件。

  5. 將帶箭頭標記的零件插入組裝結構的開口處,使用4顆螺絲(101339)固定。

  6. 使用提供的工具(101339),將帶箭頭標記的零件固定在組裝的框架結構上。

  7. 使用4顆螺絲進一步固定框架結構的零件。

  8. 框架結構現在已經完全組裝好了。

  9. 使用工具(101339)驅動另外四顆螺絲,以加固連線。

10、使用四顆螺絲(101339)固定盒子結構的頂部。

11、插入帶箭頭標記的零件,關閉盒子的一側。

12、使用工具(101339)驅動16顆螺絲,將所有零件緊密固定。

13、附加的圖示顯示了組裝框架結構內部建立的細分隔間。

14、最後的圖示提供了組裝完成的整體尺寸,包括六顆螺絲固定的手柄。

當然,結果絕非完美。例如劃線部分所示,什麼是“錘形零件”?什麼又是“帶箭頭標記的零件”?前面一個問題源自模型無法清楚區分圖片中的螺絲和錘子工具;後面一個問題在於系統搞不清楚箭頭其實表示的是這個零部件的插入方向。

有人說宜家最酷的不是傢俱,而是傢俱說明書——沒有文字,只有圖,一些顧客常常在組裝過程中陷入沮喪。現在,可以考慮找一個幫手了。
我們透過 Poe 呼叫 Claude 3 Opus。輸入提示 “you are a friendly assistant ”。
然後,直接上傳了下面這張圖片,沒有任何文字提示作為補充,看看大模型能否提供安裝說明:

圖片

這是我們得到的結果。雖然還是存在明顯的問題,比如識別不了 d (不是螺絲,而是會隨商品贈送的扭螺絲簡易工具),但並不妨礙我們對安裝步驟有一個大體瞭解,並且知道這是一種比較典型的宜家家居安裝風格。

圖片

如果是樂高安裝說明書呢?我們按順序(步驟 1-5 )輸入了下面五張樂高安裝說明書:

圖片


圖片


圖片

圖片

圖片

這是結果,非常清楚明白:

圖片


接著讓模型推理一下咱拼的什麼東西,結果也靠近答案(玩具小汽車)。圖片
Claude 3 Optus 可以做到,其他領先大模型是否也可以呢 ? 還真未必。下面是 Gemini Pro 的“答卷”,差強人意,已經“臆想”是飛機的搭建了。目前 GPT-4 不接受這麼多張圖的輸入,微軟 Copliot 也只允許上傳一張。

圖片

同樣是看圖說話, Claude 3 Optus 能否看懂漫畫呢?輸入提示:“請按順序解釋每幅圖片的意思”:

圖片


結果確實讀懂了這是一幅吐槽宜家家居很難安裝的漫畫。不過,從第 9 幅圖開始,模型就開始出錯——正確答案是,使用者飲彈自盡後,搶救無效,葬禮上的工人開始安裝說明建造棺材和十字架,結果呢,確實不好裝,十字架都歪了.......

圖片

Claude 3 Opus 也有不靈光的時候。尤其是當輸入只有一張說明書時,Opus 並不能穩贏 GPT-4 。比如,這個茶几安裝說明。

圖片


從返回結果來看,不僅文字識別存在問題(“層板”被識別為“房板”),擰螺絲的簡易工具也識別不出來。解讀安裝步驟也有問題,比如步驟 3、4 其實是在固定腿部,但被識別為固定板子。

圖片


相比之下,如果使用 GPT-4 ,結果要好很多:

圖片



圖片


這是宜家早期的 Tune 椅子說明書:

圖片


Claude 3 Opus 返回的結果如下。椅子被識別為桌子,安裝步驟也和圖片內容不吻合。



圖片



同樣的提示, GPT-4 的效果要好得多:

圖片


我們的新專欄會帶來更多不同大模型的案例演示,歡迎大家留言評論並給出改進建議。

相關文章