Tow數字新聞中心：新研究發現人工智慧搜尋工具的平均準確率僅為60%

人工智慧模型可能缺乏準確性，這是不爭的事實。對於開發人員來說，產生幻覺和重複錯誤資訊一直是一個棘手的問題。由於用例千差萬別，因此很難確定與人工智慧準確性相關的可量化百分比。一個研究團隊聲稱，他們現在已經掌握了這些數字。

Tow 數字新聞中心最近研究了八個AI搜尋引擎，包括 ChatGPT Search、Perplexity、Perplexity Pro、Gemini、DeepSeek Search、Grok-2 Search、Grok-3 Search 和 Copilot。他們測試了每種工具的準確性，並記錄了工具拒絕回答的頻率。

研究人員從 20 家新聞出版社（每家 10 篇）隨機選擇了 200 篇新聞報導。他們確保每篇報導在使用文章摘錄時都能在Google搜尋中返回前三個結果。然後，他們在每個人工智慧搜尋工具中執行相同的查詢，並根據搜尋是否正確引用了 A）文章、B）新聞機構和 C）URL 來評定準確性。

然後，研究人員根據從”完全正確”到”完全不正確”的準確度給每條搜尋貼上標籤。從下圖中可以看出，除了兩個版本的 Perplexity 外，其他人工智慧的表現都不理想。總體而言，人工智慧搜尋引擎有 60% 的時間是不準確的。此外，人工智慧對這些錯誤結果的”信心”也強化了這些錯誤結果。

這項研究之所以引人入勝，是因為它以量化的方式證實了我們幾年前就已經知道的事實–LLM是”史上最狡猾的騙子”。他們以完全權威的口吻報告說，他們所說的都是真的，即使事實並非如此，有時甚至會爭辯或在面對質疑時編造其他虛假的斷言。

在 2023 年的一篇軼事文章中，Ted Gioia（誠實的經紀人）指出了數十條 ChatGPT 的回覆，顯示機器人在回覆大量詢問時自信地”撒謊”。雖然有些例子是對抗性詢問，但許多隻是一般性問題。

即使承認自己錯了， ChatGPT 也會在承認錯誤之後提供更多的虛假資訊。 LLM 似乎被程式設計為不惜一切代價回答使用者的每一個輸入。研究人員的資料證實了這一假設，並指出 ChatGPT Search 是唯一能回答全部 200 條文章查詢的人工智慧工具。不過，它的完全準確率僅為 28%，完全不準確的時間佔 57%。

ChatGPT 還不是最差的。 X 的 Grok AI 的兩個版本都表現不佳，但Grok-3 Search 的準確率高達 94%。微軟的 Copilot 也沒好到哪裡去，因為它在 200 次查詢中拒絕回答了 104 次。在剩下的 96 個查詢中，只有 16 個”完全正確”，14 個”部分正確”，66 個”完全錯誤”，因此它的準確率大約為 70%。

可以說，這一切最瘋狂的地方在於，製造這些工具的公司對這種缺乏準確性的情況並不透明，同時向公眾收取每月 20 到 200 美元的費用。此外，Perplexity Pro（20 美元/月）和 Grok-3 Search（40 美元/月）比其免費版本（Perplexity 和 Grok-2 Search）回答的查詢正確率略高，但錯誤率也明顯更高（上圖）。

不過，並非所有人都同意這種說法。 TechRadar 的蘭斯-烏拉諾夫（Lance Ulanoff）表示，在嘗試了 ChatGPT Search 之後，他可能再也不會使用 Google 了。他描述說，該工具快速、清晰、準確，介面簡潔、無廣告。

Tow數字新聞中心：新研究發現人工智慧搜尋工具的平均準確率僅為60%

相關文章