人工智慧模型可能缺乏準確性,這是不爭的事實。 對於開發人員來說,產生幻覺和重複錯誤資訊一直是一個棘手的問題。 由於用例千差萬別,因此很難確定與人工智慧準確性相關的可量化百分比。 一個研究團隊聲稱,他們現在已經掌握了這些數字。

Tow 數字新聞中心最近研究了八個AI搜尋引擎,包括  ChatGPT Search、Perplexity、Perplexity Pro、Gemini、DeepSeek Search、Grok-2 Search、Grok-3 Search 和 Copilot。 他們測試了每種工具的準確性,並記錄了工具拒絕回答的頻率。

研究人員從 20 家新聞出版社(每家 10 篇)隨機選擇了 200 篇新聞報導。 他們確保每篇報導在使用文章摘錄時都能在Google搜尋中返回前三個結果。 然後,他們在每個人工智慧搜尋工具中執行相同的查詢,並根據搜尋是否正確引用了 A)文章、B)新聞機構和 C)URL 來評定準確性。

然後,研究人員根據從”完全正確”到”完全不正確”的準確度給每條搜尋貼上標籤。 從下圖中可以看出,除了兩個版本的 Perplexity 外,其他人工智慧的表現都不理想。 總體而言,人工智慧搜尋引擎有 60% 的時間是不準確的。 此外,人工智慧對這些錯誤結果的”信心”也強化了這些錯誤結果。

這項研究之所以引人入勝,是因為它以量化的方式證實了我們幾年前就已經知道的事實–LLM是”史上最狡猾的騙子”。 他們以完全權威的口吻報告說,他們所說的都是真的,即使事實並非如此,有時甚至會爭辯或在面對質疑時編造其他虛假的斷言。

在 2023 年的一篇軼事文章中,Ted Gioia(誠實的經紀人)指出了數十條 ChatGPT 的回覆,顯示機器人在回覆大量詢問時自信地”撒謊”。 雖然有些例子是對抗性詢問,但許多隻是一般性問題。

即使承認自己錯了, ChatGPT 也會在承認錯誤之後提供更多的虛假資訊。 LLM 似乎被程式設計為不惜一切代價回答使用者的每一個輸入。 研究人員的資料證實了這一假設,並指出 ChatGPT Search 是唯一能回答全部 200 條文章查詢的人工智慧工具。 不過,它的完全準確率僅為 28%,完全不準確的時間佔 57%。

ChatGPT 還不是最差的。 X 的 Grok AI 的兩個版本都表現不佳,但Grok-3 Search 的準確率高達 94%。 微軟的 Copilot 也沒好到哪裡去,因為它在 200 次查詢中拒絕回答了 104 次。 在剩下的 96 個查詢中,只有 16 個”完全正確”,14 個”部分正確”,66 個”完全錯誤”,因此它的準確率大約為 70%。

可以說,這一切最瘋狂的地方在於,製造這些工具的公司對這種缺乏準確性的情況並不透明,同時向公眾收取每月 20 到 200 美元的費用。 此外,Perplexity Pro(20 美元/月)和 Grok-3 Search(40 美元/月)比其免費版本(Perplexity 和 Grok-2 Search)回答的查詢正確率略高,但錯誤率也明顯更高(上圖)。

不過,並非所有人都同意這種說法。 TechRadar 的蘭斯-烏拉諾夫(Lance Ulanoff)表示,在嘗試了 ChatGPT Search 之後,他可能再也不會使用 Google 了。 他描述說,該工具快速、清晰、準確,介面簡潔、無廣告。

自 中文業界資訊站