作者 | Ben Dickson

譯者 | 平川

策劃 | 凌敏

自從 OpenAI 釋出 ChatGPT 以來,關於它的殺手級應用會是什麼,人們有很多猜測。排名第一的可能要屬線上搜尋。據《紐約時報》報導,谷歌的管理層已經宣佈進入“紅色警戒”,努力保護其線上搜尋的壟斷地位,以抵禦 ChatGPT 將帶來的衝擊。

這場 ChatGPT 與谷歌搜尋之間的大戰,究竟誰能稱王?可能不同的人心中都有不同的答案。日前,TeckTalks 部落格發表評論文章認為,ChatGPT 確實是一項很棒的技術,但從現階段來看,取代谷歌搜尋還存在一定的難度。

本文最初釋出於 TeckTalks 部落格。

ChatGPT 是一項很棒的技術,它很有可能會重新定義我們建立以及與數字資訊互動的方式。它可以有許多有趣的應用,包括線上搜尋。

但說它將取代谷歌可能有點牽強——至少從目前來看是這樣。目前,大型語言模型(LLM) 在挑戰搜尋引擎之前還有許多問題需要解決。即使技術成熟,谷歌搜尋也可能是從 LLM 中獲益最多的。

LLM 與真實性

ChatGPT 非常擅長回答問題。它讓你覺得自己就像是在和一個花了幾百年時間汲取知識的人說話。它的輸出很流暢,語法也正確,甚至可以模仿不同的演講風格。

然而,有個問題是 ChatGPT 的答案有時候不對。事實上,它經常產生幻覺,陳述的事實完全錯誤。在讀寫能力的表象之下,ChatGPT 是一個非常先進的自動補全引擎。它會根據你的提示(和聊天記錄)嘗試預測接下來會發生什麼。而且,即使它的答案大部分看起來是合理的,它也沒有把事情做好。

解決 ChatGPT 輸出的真實性問題將是一項重大的挑戰。 遺憾的是,目前還沒有辦法在 ChatGPT 的輸出中區分幻覺和真相,除非你用其他事實來源驗證它的答案(或許可以使用谷歌?)。但如果重點是使用大型語言模型作為搜尋引擎的替代品,那可能會弄巧成拙。

現在,谷歌或其他搜尋引擎所提供的所有內容都不一定是真實的。但至少,它們為你提供了可以進行驗證的資源連結。而 ChatGPT 提供純文字,不會引用實際的網站(注:在融合 ChatGPT 的 最新版 Bing 中,會引用相關網址)。

一個可能的解決方案是新增一種機制,將 LLM 輸出的不同部分連結到實際的網頁(一些公司正在試驗這種方法)。但這是一項複雜的任務,可能無法用純基於深度學習的方法來解決。這就需要訪問另一個資訊源,比如搜尋引擎索引資料庫(這是經典搜尋引擎不太可能很快失去其重要地位的原因之一)。

更新模型

ChatGPT 及其他 LLM 面臨的另外一項挑戰是更新知識庫。 搜尋引擎可以藉助工具和軟體不斷索引新頁面以及修改過的頁面。更新搜尋引擎資料庫也是一項非常高效的操作。

但對於大型語言模型,新增新知識需要重新訓練模型。也許不是每次更新都需要重新訓練,但與在搜尋引擎資料庫中新增和修改記錄相比,其成本要高得多。如果你想了解最新的新聞,就得每天做很多次。

ChatGPT 基於 GPT 3.5 構建,它可能至少有 1750 億個引數。由於任何一個單獨的硬體都無法執行這個模型,所以必須將其分解並分佈在幾個處理器上,比如 A100 GPU。配置這些處理器並行訓練和執行模型不管在技術上還是財務上都是不小的挑戰。

LLM 搜尋引擎的運營商還需要有機制和工具,來確定哪些網路資源是可靠的知識源並應優先考慮。再一次,我們看到了搜尋引擎元件的蹤跡。

速度挑戰

LLM 還存在推理速度的問題。像谷歌這樣的公司已經建立了高度最佳化的資料庫基礎設施,可以在不到一秒鐘的時間內找到數百萬個答案。像 ChatGPT 這樣的 LLM 則需要幾秒鐘來撰寫回復。

搜尋引擎不需要為每個查詢瀏覽整個資料集。它們有索引、排序和搜尋演算法,可以非常快的定位到正確的記錄。因此,儘管線上資訊的數量在增長,但搜尋引擎的速度並沒有下降。

另一方面,LLM 每次收到提示時都會瀏覽整個神經網路的資訊。誠然,神經網路的規模無法與搜尋引擎資料庫相比。但是,計算量仍然比查詢索引大很多。鑑於深度神經網路的非線性性質,並行化推理操作的程度是有限的。隨著 LLM 訓練語料庫的增長,模型也必須變得更大,才能在其知識庫中很好地泛化。

ChatGPT 的商業模式

不過,基於 LLM 的搜尋引擎最大的挑戰可能是商業模式。谷歌在其搜尋引擎上建立了一個廣告帝國。

谷歌搜尋並不是一個完美的商業模式。人們很少會點選那些越來越多地出現在搜尋引擎結果頁面上方的廣告。但谷歌在線上搜尋市場的份額如此之大,所以即使點選率很低,它每年也能賺上數十億美元。

谷歌還可以根據從使用者那裡收集的資料來個性化搜尋結果和廣告。這使得它的業務更加高效和有利可圖。別忘了谷歌還有許多其他產品,包括 YouTube、Gmail、Chrome 和 Android,可以強化它為使用者建立的數字檔案。它的廣告網路也擴充套件到了網站和其他媒體。

基本上,谷歌控制著市場的兩端:內容搜尋者和廣告商。透過控制整個市場,它成功地創造了一個自我強化的迴圈。在這個迴圈中,它收集了更多的資料,改善了搜尋結果,並提供了更多相關的廣告。

作為一個潛在的搜尋引擎,ChatGPT 還沒有一個商業模式,而且成本很高。粗略估計,在 100 萬使用者的情況下,ChatGPT 每天的成本為 10 萬美元,每月約為 300 萬美元。

據我估計,執行 ChatGPT 的成本是每天 10 萬美元或每月 300 萬美元。這是一個粗略的計算。我是假設節點都總是在使用,批處理大小為 1。而實際上,它們可能在訪問量大時進行批處理,而在訪問量小時會有 GPU 處於空閒狀態。

—— Tom Goldstein (@tomgoldsteincs)2022 年 12 月 6 日

現在想象一下,當人們每天執行 80 億個搜尋查詢時會發生什麼。現在,再加上定期訓練模型的成本,以及透過強化學習和人類反饋來最佳化模型所需的人工勞動。

訓練和執行像 ChatGPT 這樣的大型語言模型的成本是如此之高,以至於讓它發揮作用將成為大型科技公司的專利,這些公司可以在沒有明確商業模式的無利可圖的產品上投入大量資金。

盈利的一個可能途徑是將 LLM 作為像 Codex 和 GPT-3 那樣的付費 API 交付。但這並不是搜尋引擎的傳統商業模式,我不確定它們將如何做到這一點。另一種方法是將其作為一些問答功能整合到微軟 Bing 中,但這將使其與谷歌搜尋相提並論,而不是提供一個可以顛覆搜尋市場的不同系統。

ChatGPT 是一個搜尋引擎嗎?

很多人都在談論 ChatGPT 將成為萬能助手,可以回答任何問題,這在邏輯上引出了它將取代谷歌搜尋的想法。

但是,儘管擁有一個可以回答問題的人工智慧系統非常有用(假設 OpenAI 解決了它的問題),但這並不是線上搜尋的全部。谷歌搜尋有缺陷,它會顯示很多沒用的廣告,也會返回很多沒用的結果。但這是一個價值不可估量的工具。

大多數時候,當我使用谷歌搜尋時,我甚至不知道正確的問題是什麼。我只是把一堆關鍵字混在一起,看看結果,做一些研究,然後縮小或修改搜尋。在我看來,這種應用還不是一個非常有效的問答模型所能取代的。

表面看來,ChatGPT 或其他類似的 LLM 將成為線上搜尋引擎的補充。最終,它們很可能會強化現有搜尋巨頭的地位,因為這些巨頭擁有訓練和運營它們的資金、基礎設施和資料。

原文連結:

https://bdtechtalks.com/2023/01/02/chatgpt-google-search/

本文為 InfoQ 翻譯