來源： OneFlow
作者｜Pietro Casella、Patrik Liu Tran

翻譯｜賈川、徐佳渝、楊婷

語言（即讀寫能力）是人類最重要的發明，也是人類與其它物種的最大區別。語言使我們掌握了抽象推理，發展出了複雜思維，學會了與他人溝通交流。可以說，沒有語言就不會有現代文明。

因此，未來幾年大型語言模型（LLM）將極大地影響生成式AI的發展，ChatGPT的迅速普及就是很好的例證。此外，LLM還在多種場景得到應用，比如內容建立、程式碼生成、藥物開發、翻譯、搜尋以及工作場所實用程式（例如會議轉錄和摘要）。

LLM應用例項

總之，生成式AI的最新進展標誌著AI已然邁進新時代。AI如今不再只是研究課題，而是成為了幫助人們解決實際問題的實用工具，在各行各業發光發熱。因此，企業必須要重視AI的影響力。

面對AI的發展，企業要立即行動起來，維持自身競爭力。長期來看，未能與AI融合的公司將在這場競爭浪潮中日益落後，並逐漸消亡。對於企業來說，最關鍵的是要把控好AI的優勢和成本，採取必要措施將AI納入發展規劃。未來幾年將會是商業發展的黃金時期，新興企業已如雨後春筍般出現。

本文主要關注LLM，包括LLM和模型相關技術概述，以及它們在實踐中的應用。希望本文可以幫助從業者瞭解如何在業務中應用LLM，使行業潛在投資者全面瞭解這一領域，作出更好的投資決定。雖然我們提供的框架（例如各類AI公司的分類）適用於所有生成式AI，但這裡還是以LLM示例為主。

（本文經授權後由OneFlow編譯，譯文轉載請聯絡OneFlow獲得授權。原文：）

1
從Transformer到ChatGPT

AI領域常有開創性論文發表，這些論文影響著行業的未來發展方向。LLM領域中，“Attention Is All You Need”就是這樣一篇論文。

這篇文章由谷歌團隊於2017年發表，在文中，他們提出了一種名為Transformer架構，簡單來說，與當時的SOTA替代方案相比，Transformer架構具有高度並行性和計算效率，同時具有超高效能。

這意味著，採用Transformer架構的模型訓練成本更低、速度更快，生成的模型效能更好。在不影響效能的情況下，這種低成本、高效的組合十分重要，它能夠讓我們利用更多的資料，訓練更大的模型。

受Transformer啟發，在Transformer架構的基礎上，各類知名LLM層出不窮，例如：生成式預訓練Transformer（GPT）模型、BERT以及XLNet。

有關GPT（1.0）和BERT的論文最早可以追溯到2018年。次年（即2019年）發表了第一篇關於XLNet的論文。儘管如此，直到2022年底，OpenAI推出ChatGPT後，LLM才進入大眾視野，開始風靡於研究界之外。

ChatGPT推出後，不到一週的時間裡，就收穫了超百萬使用者。這種普及速度十分罕見，幾乎超越了以前所有的科技產品。臺上十分鐘，臺下十年功，所有的突破性成就必然來自於夜以繼日的努力。基於GPT-3.5的ChatGPT是LLM領域多年以來的最重要的成就。實際上，ChatGPT的基礎模型並不是最好的LLM，但卻是目前最受歡迎的模型。

時間會證明一切。在我們看來，ChatGPT最重要的是作為PoC(為觀點提供證據)，向世界展示LLM的能力。儘管ChatGPT釋出初期十分火爆，但我們不確定它能否成為主流LLM之一，在實際用例中獲得廣泛應用。原因如下：

1
基礎模型vs專用模型

基礎大型語言模型是在大量公開文字、資料（例如，維基百科、新聞文章、Twitter、線上論壇等）上進行訓練的。模型訓練資料話題廣泛，內容繁雜，並不針對特定領域和任務，這類模型包括：GPT-3，Jurassic-1，Gopher和MT-NLG。

目前，雖然建立在基礎AI模型（如ChatGPT）之上的應用程式非常流行，但我們預計，專用於特定領域或任務的模型才能發揮出LLM的真正價值。因為與相同模型大小的基礎模型相比，在專業領域裡，專用模型的表現通常來說更好。這意味著，我們需要用更大的基礎模型（這也意味著更高的推理成本和更大的記憶體佔用）才有可能在專業領域實現與專業模型相同的效能。

專用模型比基礎模型表現更好的原因之一與模型對齊有關，即LLM的輸出與模型使用者的目標和興趣相對應的程度。更好的模型對齊意味著答案是正確且相關的，也就是說正確回答了模型請求的問題。由於專用模型僅關注特定領域或任務，因此與基礎模型相比，專用領域模型的對齊程度通常更高。

我們有多種方式實現模型的專用化，其中之一就是利用專用領域或任務的資料來訓練基礎模型。比如，一個基礎模型可以很好地回答銀行相關的一般問題，然而，如果你想要打造一個專門針對銀行的聊天機器人，那麼這個通用模型的效能水平就不太夠用了。這時，我們就可以利用銀行業相關的資料集來訓練這個模型，實現模型專業化。反過來，假如有一家銀行想要在客服服務中應用聊天機器人，從而實現簡單任務的自動化，此時銀行可能會在實際客戶服務對話的專門資料上進一步訓練這個專業模型。像這樣訓練以後，LLM就能學會特定銀行按照一定政策的行事方式，畢竟不同銀行可能有不同的政策和指導方針。

因為專用模型針對的是特定任務，不涉及其它不相關的領域和任務，所以說，不需要用到很大的基礎模型來進行進一步訓練。使用更小的模型意味著更低的推理成本和更小的記憶體佔用，也就是說，比最大的可用模型小得多的基礎模型可能會成為專用基礎模型的首選。

2
LLM如何改進?

為了更好地瞭解LLM的功能和侷限性，我們首先要了解該如何改進它們。LLM的改進有三個主要驅動因素，分別是：體系結構改進、更大的模型、更多的訓練資料。接下來我們將對這三方面進行逐一介紹。

架構改進是關鍵，但很難取得突破

架構改進（例如2017年的Transformers架構）可以在不增加模型複雜度和訓練資料量的情況下提升LLM效能。目前正在構建的多數SOTA效能LLM仍然是基於Transformer的網路架構（與2017年推出的架構非常相似）。儘管它具有已知的侷限性（例如自注意導致的二次方時間和記憶體複雜性），但目前還沒有廣受認可的架構更新。話雖如此，人們一直在不斷探索，試圖改進架構，併為此推出了所謂的高效Transformers來消除已知侷限。

對現有SOTA架構的漸進式改進（如高效Transformers）將逐年突破模型效能界限。此外，每隔一段時間，行業就會迎來突破性的架構改進（例如原始Transformer架構），這些改進代表著模型效能的跨越式提升。

與增加模型大小和訓練資料量相比，改進模型架構較為困難。模型架構改進遵循傳統研發模式，需要大膽創新，且無法保證結果，因此，LLM的此類效能改進最為棘手，同時也是架構漸進式提升與突破向社群釋出和分享的標準。除了率先使用先進模型，這意味著這類提升不能作為長期優勢去與其它構建LLM的公司或對手競爭。例如，OpenAI的LLM是以Google Brain 2017年發明並公開的Transformer為基礎。

LLM改進經典做法：擴大模型規模

目前，為了提高LLM效能，人們將大部分精力放在了增加模型大小上面。2020年，OpenAI發表了一篇論文，提出了在增加模型尺寸與提高模型效能之間的擴充套件定律，論文的結論是：人們應該將大部分預算用於擴大模型規模。這篇論文直接推動了增大模型規模的浪潮。下圖出自論文Machine Learning Model Sizes and the Parameter Gap，圖中顯示近年來語言模型大小呈顯著增長趨勢。

2019年之前，大多數LLM的引數都在數億級。2019年，OpenAI釋出了有15億引數的 GPT-2。2020年，谷歌和微軟釋出了T5和Turing NLG，分別包含110億和170億個引數。2020年年中，OpenAI釋出了1750億個引數的GPT-3。從那時起，大型模型開始接連出現，例如AI21的Jurassic-1（1780億個引數）、DeepMind的Gopher（2800億個引數）、Nvidia和微軟的MT-NLG（5300億個引數）以及北京智源研究院的WuDao 2.0（1.75萬億個引數）。

LLM之所以可以透過增加模型規模來提升效能，是因為這樣做能提升模型對複雜現實的建模能力。由於Transformer架構速度快、價效比高，一直是訓練大型模型的首選。然而，在同等條件下，更大的模型也意味著更高的訓練和推理成本，同時也意味著更大的記憶體佔用，也就是說，模型需要部署在更大的硬體上。因此，在預算和記憶體有限的情況下，盲目擴大模型規模並不是提升模型效能的最佳選擇。

大規模訓練資料集的競賽

一直以來，人們都低估了訓練資料在模型效能提升方面的重要性，這種重要性包括質量和數量兩方面。2022年DeepMind團隊發表了一篇論文（），文中對比了模型大小和訓練資料，最終結論是：多數語言模型明顯訓練不足。也就是說，在不增加模型大小的情況下，在更大的資料集上訓練模型將受益匪淺。

文中，DeepMind團隊訓練了一個相對較小的LLM，名為Chinchilla，這個模型只有700億個引數，但卻有1.4萬億個訓練token。經過訓練，Chinchilla模型的效能超越了諸如GPT3、Gopher、Jurassic-1和MT-NLG等更大的語言模型，這些語言模型的引數都在1750億-5300億之間，但訓練token卻在2700億-3000億之間（請參見下表）。這表明為了提升模型效能，人們必將打響訓練資料集之戰。

此外，我們還可以透過強化學習來利用更多資料，提升LLM的效能。2017年，OpenAI釋出了一類新的強化學習演算法：近端策略最佳化（PPO，），是目前行業裡的SOTA。在實踐中，近端策略最佳化操作更為簡單，並且它的表現能夠達到甚至超越其它替代方法。

ChatGPT背後的LLM已經利用人類反饋的強化學習（RLHF）實現了微調，步驟如下：第一步：透過監督學習，用人類對不同提示的“理想”回答資料微調LLM。第二步：LLM 為每個提示提供多個答案，然後由人工對這些答案進行排名（該排名用於訓練獎勵模型）。第三步：用近端策略最佳化模型來最佳化LLM的獎勵模型。強化學習可以引導模型提供更加正確、公正、有益的答案。總之，現在的LLM更加強大。

事實上，這也是OpenAI將ChatGPT釋出為 “免費試用”的主要原因之一（其實你已經透過提供資料的方式付費了）。ChatGPT生成的每個回答旁邊都有一個“贊（thumbs up）”和一個“踩（thumbs down）”按鈕，使用者可以透過這兩個按鈕來評價模型生成的回答。無論是“贊”還是“踩”都會出現一個對話方塊，使用者可以將理想答案輸入框中，而這些答案正是強化學習第一步需要的資料。

ChatGPT的反饋迴圈按鈕

理論上講，只要有充足的資金和相關人才，任何公司都能打造出優質LLM。但我們預計，科技巨頭最有可能打造出效能最佳的LLM，因為這些公司可以獲得和管理訓練資料，特別是強化學習部分，以進一步改進和微調他們的模型。公司之間的訓練資料有很大差異。谷歌、微軟、Meta、亞馬遜、阿里巴巴和騰訊等公司為數十億使用者提供了不同的服務，所以它們可以找到創新性的方式去收集相關資料，用以訓練LLM。

相比增加模型規模，用更多訓練資料來提升模型效能不會增加推理成本，模型執行時也不會導致更大的記憶體佔用。但這也面臨著其它挑戰，其中最大的挑戰是，我們難以確保這些擁有數十億、數萬億訓練token的資料集良性運轉，從而導致模型產生錯誤、偏見、有害的內容。強化學習也許在一定程度上可以抵消這些不良內容，但難以照顧到各個領域的LLM。

3
不同型別的AI公司

我們看到人工智慧對這些公司的產品和差異化的重要性，以及他們主要運營的人工智慧技術堆疊的哪一部分，可能會有很大差異。

在最近的生成式AI浪潮下，許多公司再次將自己標榜為“AI公司”。AI對這些公司的產品和差異化的重要性以及他們所研發的AI技術堆疊可能有著本質上的區別。基於此，我們將這些公司分為以下五類：AI核心（AI Core）、AI賦能（AI Enabler）、AI原生（AI Native）、AI特色（AI Featured）和 AI驅動（AI Powered）。

人工智慧技術堆疊

AI賦能公司主要在AI技術堆疊的底層，為構建AI模型提供基礎設施、工具和資料支援。AI核心公司的主要業務是構建和銷售AI模型，在構建模型的過程中，AI賦能公司為其提供相應支援，以完成資料獲取、模型訓練、模型工程和模型測試等任務。

AI原生和AI特色公司處於應用層，它們使用的都是AI核心公司提供的AI模型。不過也有一定區別，AI原生公司的產品或服務的核心價值來自於AI模型的應用，而AI特色公司則是利用AI模型為已有產品新增新的功能。AI驅動公司則處於AI技術堆疊的頂層，也就是終端使用者所在的層級。

1. AI賦能公司：為AI模型構建提供所需基礎設施、工具及資料

AI賦能公司是一類專為構建AI模型提供必要技術的公司。由於生成式AI模型具有巨大的引數集，因此確保可靠的基礎設施以支援處理工作負載至關重要。此外，還需要提供MLOps工具，以協助模型構建。在AI賦能公司中，提供訓練資料、獲取資料相關工具的公司最為引人注目，因為資料是影響模型效能和差異化的重要因素。

從基礎設施開始

在LLM領域，大多數LLM在模型的訓練和部署方面高度依賴雲服務提供商。三大主要雲服務提供商（亞馬遜AWS、微軟Azure和谷歌Cloud）都有一些在該領域中具有重要地位的客戶。例如，OpenAI正在使用微軟Azure平臺，DeepMind使用的是谷歌Cloud平臺，Stability AI則選擇了亞馬遜AWS作為其主要的雲服務提供商。

隨著LLM的興起，人們對雲服務提供商所提供的儲存和計算服務需求不斷增加。如果將LLM的興起看作是一場持續的淘金熱，那麼雲端計算和儲存服務提供商就像是這片土地的所有者，人們則是湧向這片土地的淘金者。為了成為計算和儲存方面的首選提供商，雲服務提供商會盡可能地為LLM的開發者提供最佳服務，這是一個明智的決策。

雲服務提供商將成為重要的分銷渠道，例如它們會透過自己的雲市場來銷售產品和服務，以方便以上雲客戶使用這些模型。最近，微軟的執行長Satya Nadella透露，他們將透過Azure OpenAI服務向使用者提供ChatGPT模型。我們相信，未來會有更多這樣的例子出現。

要想成為有競爭力的雲提供商，需要關注多個因素，包括模型訓練和執行推理的速度及成本。例如，Cerebras Systems專注於為深度學習應用程式提供計算服務，旨在降低深度學習應用程式（包括大型語言模型）的訓練和推理成本，並將計算速度提高到普通替代方案的十倍。

由於模型的大小、架構以及訓練資料量的不同，訓練成本可能會高達數千萬美元，訓練時間會長達數百天。因此，節約成本和時間仍將是未來深度學習領域的重要因素。有趣的是，我們看到一些區塊鏈公司（例如加拿大的Hut 8 Mining）正在將其硬體重新用於AI模型訓練和推理，這一轉變有望加速新參與者進入該領域。

便利性和易用性也是雲服務提供商需要考慮的另一重要因素。雲服務提供商可以透過最佳化底層硬體來訓練一般的深度學習模型及特殊的深度學習模型（如大型語言模型），無需使用者進行大量的手動調整。

此外，訓練大型語言模型需要大規模的計算叢集，而租用這些計算叢集通常需要簽訂多年的合同，這種方式對於消費者來說缺乏靈活性。因此，提供更加靈活的短期租賃方式對消費者來說更具吸引力。

用於模型工程、開發和測試的工具

MLOps（機器學習運維）是一種將機器學習模型整合到軟體開發週期中的實踐和流程，旨在讓機器學習模型在生產環境中保持高效能和高可靠性。對於LLM來說，這涉及到模型工程、開發和測試。

在模型工程和開發階段，機器學習研究人員和工程師通常使用像TensorFlow、PyTorch這樣的庫和框架。在模型開發完成後，需要對模型進行測試，然後再部署模型。

LLM模型與其他機器學習模型一樣，都能對訓練資料中的資訊進行編碼，並在推理階段對資訊進行解碼。然而，由於其訓練資料主要是人類的書面對話和文字，因此可能存在偏見。大家可能都還記得，微軟推出的一款聊天機器人Tay，該機器人是透過Twitter資料進行訓練的。然而，幾個小時後，該機器人就開始發表帶有種族主義色彩的言論。

此外，網際網路中存在著大量的錯誤資訊，我們從中收集了大量LLM模型所需的訓練資料。如果不對訓練資料進行質量驗證，模型就可能受到錯誤資訊和人類偏見的影響。

目前，還沒有一個可擴充套件、自動化的企業生態系統，能夠監控和驗證文字形式的非結構化資料的質量和有效性。隨著LLM服務越來越受歡迎，為了滿足人們對此類服務的需求，我們當然需要採取一些自動化的方法來執行這些任務。因此，我們預計在未來這一領域會有很多的可能性。甚至可能會出現專注於評估文字資料質量及有效性的LLM模型。

在模型測試方面，有許多人們廣泛接受的基準可用於評估LLM的效能。其中一個例子是史丹佛大學的一組研究人員提供的全面評估語言模型（HELM）。HELM是一種全面評估LLM效能的基準，它涵蓋了多個方面的指標，如準確性、校準性、魯棒性、公平性、偏見、有害性和效率。儘管如此，HELM仍不能完全反映出實際語言模型效能的全貌。據多次報導，在基準測試上表現良好的模型，在實際測試中可能會表現不佳。

OpenAI產品負責人Frasher Kelton在一篇部落格文章中提供了一個很好的例子，該例子表明當模型在某個任務上表現更好時，可能在另一個任務上表現更差。此外，在實際應用中，除了準確性、公平性、有害性等指標，推理成本和延遲也是非常重要的度量標準，需要與其他指標一起進行權衡和綜合考慮。

鑑於此，Kelton提出了一種更理想的測試方法，即需要透過不斷地試錯和探索來判斷模型是否適合推向生產環境。然而，這種方法並不理想。因此，我們可能會看到在這個領域中會出現幾家大公司，來提供更完善和可信的解決方案。

資料採集

資料採集的第一步通常是獲取大量的文字資料集。最初的資料集通常來自於免費開放資料來源，這些資料可以在模型中心（如Hugging Face）中找到。它們可能包含成千上萬個資料集，每個資料集包含數百萬甚至數十億個單詞。如果使用者條款允許，你還可以透過爬取網站和應用程式來獲取文字資料。一些潛在的有趣資料來源有維基百科、部落格文章、論壇、Linkedin和Twitter。

除了免費開放資料來源外，大多數LLM構建者仍然會收集額外的資料。此處，我們強調了三種主要的資料採集策略：資料標註、合成資料生成和透過反饋迴圈進行資料收集。

以資料標註公司Scale AI和Labelbox為例，它們提供了高效的資料標註工具。此外，推薦一個免費的開源替代品Labelstudio。我們預測，未來標註技術提供商將整合LLM，為使用者提供標籤。這樣，使用者只需要核對和批准這些標籤，無需從頭開始實際標註（actual labeling）。最耗時的標註任務將被自動完成，從而提高了標註效率，使得標註資料的數量呈指數級增長。

使用Labelstudio可以輕鬆標記新資料

合成資料指的是生成人工資料的過程。其中，最常見的用例是當你因隱私保護而不能使用真實的原始資料時，你要麼放棄資料，要麼想出一些巧妙的方法對資料進行匿名化，同時仍然保留感興趣的資訊。如果你選擇後者，就需要使用合成資料。Mostly和Hazy是該領域的兩個例子。

如上文“更多訓練資料競賽”一節所述，基於人類反饋的強化學習可以顯著提升模型效能。然而，要執行強化學習，需要一定型別的訓練資料。例如，在第一步中，需要為不同的prompt提供所需的答案。這些資料與所使用的模型無關，可以由第三方資料供應商提供。

接下來，人類需要對基於某一prompt生成的不同答案進行排序，這一步取決於所使用的模型，並且需要有人對想改進的實際模型的答案進行排名。因此，未來可能會出現一些公司，它們會提供第一步所需的資料集，併為第二步提供諮詢服務。

此外，還將湧現出一些工具，以簡化收集和提供此類訓練資料的過程。如果你想大規模收集此類資料，那麼就需要使用簡化資料收集和處理過程的相關工具。Humanloop 公司則提供了一種軟體開發工具包，可以從使用者那裡獲取AI的答案反饋。

我們可以在ChatGPT和Jasper中觀察到這些反饋迴圈的具體例子。如前文所述，ChatGPT允許使用者提供“贊”或“踩”作為生成答案的反饋。相比之下，Jasper提供了更多的反饋細節和選項，讓使用者可以對文字進行贊、踩、標記收藏、刪除或編輯修改。編輯後的文字可以顯示出理想答案的特點。

Jasperai提供了多個反饋迴路

2. AI核心公司構建模型

AI核心公司致力於構建實際的大型語言模型，並將模型的商業化作為主要的收入來源。OpenAI是當前最為著名的公司，不過也存在許多其他公司，如AI21、Anthropic和Cohere。請參閱以下示例，瞭解OpenAI、Cohere和AI21的API測試平臺（playground）和輸出。

OpenAI、Cohere和AI21的API測試平臺對比

AI核心公司可以選擇對模型閉源或開源。閉源公司通常用API來隱藏其模型以保護它們。目前，閉源公司通常會按API呼叫次數向客戶收取費用。

以下是OpenAI關於GPT-3的定價截圖，由於所需模型的效能水平不同，API呼叫的成本也會不同，使用效能較好的模型比使用效能較基礎的模型昂貴。此外，還存在推理速度上的差異，以滿足你對各種用例的時延需求。換句話說，你可以根據自身的實際需求選擇適合的LLM效能水平，並在相關成本和效能之間取得平衡。

OpenAI的定價模式

像Jasper這樣的公司，開始會在一個由AI核心公司構建的閉源LLM上構建他們的整個產品，這意味著他們沒有實際的LLM智慧財產權。這是這些公司面臨的主要風險之一，因為這使他們無法控制模型，無法根據自己的需求進行專業化改進。此外，閉源模型通常比你可以自己託管的開源替代方案更加昂貴。

開源模型的AI核心公司則不會有這些擔憂。即使他們提供了LLM模型程式碼，許多公司也沒有能力以強大、可擴充套件的方式將LLM模型投入生產並提供服務。因此，開源提供商通常透過模型託管服務來獲取收益。當前，一些組織致力於構建開源LLM模型，例如Eleuther、Together 和BigScience/Huggingface等等。值得一提的是，谷歌和Meta已決定開源其中的許多模型。

目前，大多數AI核心公司提供的是通用基礎模型。根據我們在“基礎模型vs專業模型”一節中的預測，LLM模型的最大價值將來自於專用化的模型。

因此，對於AI核心公司而言（無論是選擇閉源還是開源），他們可以提供基礎模型，然後讓客戶使用自己的資料來訓練這些模型，從而得到在特定領域表現更好的、專門針對客戶需求的專用化模型。這項服務將成為AI核心公司的一個重要的收入來源。AI核心公司還將提供越來越多的專用化模型，AlphaFold就是一個典型的例子，它專注於蛋白質結構領域。

3. AI原生和AI特色公司打造具有良好使用者體驗的AI應用

需要注意的是，使用LLM模型的大多數使用者並非AI專家。因此，僅提供LLM模型的API並不能幫助他們解決任何問題，這就是為什麼使用者體驗非常重要的原因。

隨著基礎AI模型的日益普及和專用化模型的開發越來越簡單（得益於一些公司提供的支援，加速了模型專用化的過程），使用者體驗的重要性將會進一步提高。因此，在使用者體驗層面的差異將變得更加關鍵。

Jasper的發展歷程是一個極好的例子，展現了使用者體驗的重要性。該公司成立僅18個月後在A輪融資中籌集了1.25億美元，估值達到了15億美元，當時他們吸引了將近10萬付費客戶，年收入達到7500萬美元左右。

Jasper最初沒有自行構建任何LLM模型，而是選擇了利用OpenAI的GPT-3作為基礎，透過API介面構建出使用者體驗更好的應用。換句話說，他們更加註重開發易於使用和吸引人的應用，而不是自行構建LLM模型。在設計過程中，他們考慮了一些關鍵問題：

GPT-3 API的prompt輸入應該是什麼樣的？
輸出應該如何呈現？應該呈現多少條輸出建議？
使用者儲存和排名不同的備選方案是否易於操作？
這個工具如何融入文案撰寫的整個工作流程中？

雖然Jasper.ai和競爭對手Copy.ai幾乎是在同一時間使用OpenAI GPT-3 API構建其應用程式，但是Copy.ai在終端使用者中的影響力遠不如Jasper.ai。造成這種差異的因素可能有很多，其中使用者體驗是一個關鍵因素。

一個需要考慮的重要問題是：使用者體驗（UX）層與底層的LLM之間能有多大的獨立性？在更改應用程式的底層LLM時，是否可以避免對使用者體驗產生負面影響？對於LLM的漸進改進（如使用更多資料進行訓練，進行微調或專用化），使用者體驗層通常不會出現太多負面影響（相反，可能會產生積極效果）。

然而，對於LLM的重大變革，後果可能會更大。例如，大多數LLM目前只會從使用者提示中獲取資訊並返回答案。因此，使用澄清問題來增加答案的相關性，將有助於提高模型的準確性。可以說，那些構建在LLM之上的公司正在創造出良好的使用者體驗來彌補底層模型的不足之處。

實際上，GPT-3不會詢問澄清問題，也不能一直提供完美的答案。因此像Jasper這樣的公司就應運而生，他們可以提供多個答案，並允許使用者輕鬆修改答案並對其進行排名以彌補缺陷。然而，當缺陷直接在底層的LLM中被修復時，這些公司必須尋找其他方式在應用程式層面提供價值，以保持他們在行業中的競爭地位。

根據AI模型對產品價值主張的重要程度，我們可以將應用程式層面的公司分為兩類：AI原生公司和AI特色公司。

AI原生公司：將AI模型作為產品核心價值主張

AI原生公司（AI Natives）指的是那些價值主張完全基於應用AI模型（如LLM）的公司。這類公司自己不建立AI模型，而是利用商業版的GPT、Google T5和Anthropic以獲得成本和效能方面的優勢。前面提到的Jasper.ai和Elicit.org（該公司建立了一個UI，允許使用者用自然語言瀏覽所有科學出版物的庫）都屬於這類公司。

Elicit.org的研究搜尋引擎

人們就AI原生公司的護城河展開了激烈的辯論，爭議點在於：如果公司“僅”在他人AI模型的基礎上提供擁有出色使用者體驗的UI，那麼公司的業務護城河究竟如何？

假如ChatGPT已經存在，那麼成立像Jasper.ai和copy.ai這樣的公司又是否可行？無論答案如何，就目前情況而言，幾個AI原生公司已迅速獲得了大量客戶，同時籌集到大量資金。有了資金保障，這些公司就能招募團隊，自己構建基礎模型，深入研究技術並實現真正擁有模型。速度和創新對於這類公司至關重要：雖然它們可以透過依賴他人的LLM迅速開啟自己的事業，但也需要快速適應才能存活下來。

AI特色公司：利用AI模型來改進現有產品

AI特色公司（AI Featured）將AI模型與現有產品相結合，以建立附加功能。對於這類公司而言，AI功能並不是其產品的核心（至少在最初是這樣）。

生產力工具Notion就是一個很好的例子。Notion本是一個記事工具，但最近新增了一個快捷方式，用於透過prompt生成文字（基本上是簡單呼叫OpenAI的API）。雖然這不是Notion的核心功能，但對於其使用者來說，卻是一個很有價值的補充功能，因為這使得使用者可以直接在Notion中生成文字，而不用在其他地方生成好再複製貼上過來。

Notion新的AI功能

Google Docs也利用AI模型來提供自動完成功能。雖然Google Docs的主要價值主張與自動完成功能無關，但該功能提高了使用者的生產力，因而得到高度好評。Canva也是一樣。Canva本是一個用於建立簡報的工具，但透過利用AI模型，簡報的文字和圖形都可以根據使用者的prompt和反饋來自動生成。

上述例子表明：使用者體驗是否出色對於AI模型的成功至關重要。那麼如何利用LLM來提供出色的使用者體驗？關鍵點在於將AI模型深度整合到你想用LLM所解決任務的現有工作流程中。這也是目前這類公司中成功案例的標準做法。因此，預計將來還有很多AI特色公司都將成為各自領域的贏家。

話雖如此，但也有很多公司將AI功能整合到其產品後，並未給其使用者帶來多少額外價值。這些公司可能只是為了趕生成式AI的熱潮。因此，區分哪些公司的AI特效能夠真正提升使用者價值十分重要。

4. AI驅動公司：智慧公司和增強人類生產力

AI驅動類的公司消費AI產品但不提供任何AI應用程式或AI模型。這是目前市面上數量最為龐大的群體，預計在不久的將來，所以公司都將成為AI驅動公司，其大多數產品和服務都將包含某種AI功能。這個過程一般需要兩步：

第一步，公司內部某些員工會根據自己的需求來利用AI產品提高工作效率。例如，營銷經理可能會使用Jasper或 ChatGPT來編寫文案，而客戶主管則可以利用LLM為潛在客戶定製電子郵件。

第二步，AI產品的利用方式更加系統化。此時AI產品的使用範圍不再侷限於公司內部個別員工，高層管理人員也開始使用AI來制定戰略政策。公司也由此轉型為“智慧公司”。例如，BuzzFeed在裁員12%後，其執行長Jonah Peretti計劃使用AI來編輯文章和協助商業運營操作。他預計AI的加入將會在短期內提升員工的生產力，並且在15年後，AI則能夠自主生產內容並提供個性化服務。在該訊息發出後的一個交易日內，BuzzFeed的股價就上漲了超150%。

AI能提高智慧公司的自動化程度。上一個自動化時代主要圍繞機器人流程自動化（RPA）展開，整個過程按照人類主導的基於規則的指令碼來展開。而新時代的自動化一般將圍繞生成式AI（Generative AI ）來運作，尤其是LLM。

使用LLM時，我們能夠超越基於規則的指令碼，自動化更多異構任務，而不必給出明確指令。這些任務包括但不限於欺詐檢測、簡化客戶服務任務、內容生成、會議轉錄、會議總結、法律檔案分析等。

此外，LLM還將在構思、討論、解決問題和決策過程等多方面提高公司員工的能力。這種能力也將自然地整合到公司使用的日常工具中，如Slack、Zoom和Notion。換言之，LLM能傾聽對話並適時作出貢獻。如果許可權夠大，LLM還能儲存公司所有溝通內容，從而打破耗時且成本高昂的知識孤島。

目前仍有許多公司尚不清楚生成式AI會對其未來發展帶來多大影響。實際上，大多數公司都應該認真思考是否應該利用AI以及如何利用AI來提高生產力。因為在完善服務、提高質量以及控制成本方面，這可能就是拉開差距的地方。

5. AI技術全棧公司

雖然我們根據AI公司在技術棧的哪個部分集中投入最多來將其分類，但實際情況並不總是那麼黑白分明。無論類別如何，AI公司通常都需要與整個技術棧進行互動和協作。

首先，AI賦能公司提供訓練資料，AI核心公司用這些資料來訓練LLM，然後AI原生或AI特色公司使用LLM來開發應用程式。

如上文所述，應用層的公司有大量機會來收集使用者反饋資料，而這正是強化學習LLM所需的資料型別。換句話說，應用層的公司通常既是應用程式提供者，也是資料提供者。要擁有從資料到應用層的整個技術棧，它們唯一缺失的部分就是模型層。實際上，Jasper.ai最近宣佈開始構建自己的LLM，這將使他們擁有從資料到應用層的整個價值鏈。

同樣，OpenAI最開始在模型層，隨著ChatGPT的推出，他們進入了應用層，透過收集人類反饋訓練資料，他們現在已經能夠進入資料層。換言之，他們也開始擁有整個AI技術棧的價值鏈。在未來，這樣的例子將會越來越多。

4
未來發展

希望這篇文章能使你對生成式AI和LLM有個大致瞭解。不過，我們現在仍處於這個新時代的早期階段，未來幾年的進展甚至會超過前幾十年的的累積之和。以下是值得進一步探討的八個問題：

1. 生成式AI的淘金時代：繼2022年高度關注Web3和加密貨幣後，投資者和企業家已經將重心大量轉向了AI，尤其是生成式AI。現在已有大量資本進入該領域，這不由得使我們想起了2021年，心中自然而然生出一個問題：這會不會又是一場沒有結果的炒作？

自1956年AI誕生以來，AI領域就一直擔負著人類很高的期望。每當這些期望無法被滿足時，AI就一次次進入了“寒冬”（指社會對該領域興趣驟減且缺乏資金支援的時期）。但隨著生成式AI的不斷髮展，這樣的日子已經一去不復返了。在恰當用例上，AI可以提供巨大的價值。然而，由於一些投資者在不瞭解情況下盲目投資，導致估值虛高，因此該領域可能會出現過熱現象。話雖如此，我們始終堅信AI的黃金時代已然到來。

2. 智慧組織和增強員工生產力：如上所述，AI驅動公司將使用AI增強來實現任務自動化和改善決策能力，以此來提高生產力。有研究報告指出：Github Copilot可以使開發速度提高55％，這意味著透過利用AI模型，開發人員的生產力將顯著提高。這很可能只是個開始，LLM在程式碼生成方面會變得越來越好，甚至開發人員可能進入無程式碼時代。

就其他領域而言，比如法律、市場營銷、銷售、客戶服務，也有望以類似的方法提高生產力。最終每個行業中的每個公司都將思考：這對我們意味著什麼？在這場革命中，每個公司只能選擇加入或者被加入。

3. 專用模型的崛起：預計大部分價值將來自於專業模型而非基礎模型。因此，未來我們將會看到越來越多的專用模型，比如用於銀行客戶服務的模型就不需知道如何以說唱風寫詩歌，而且還可以為個人任務或所屬領域而打造更小的專屬模型。

我們預測：實際上對於像OpenAI、AI21和Cohere這樣的AI核心公司來說，開發出能讓客戶在他們基礎模型上輕鬆創造出專業化模型的功能至關重要，因為所有人都在期待該功能，以解鎖LLM的下一個價值級別（next level of value）。

除了透過專用模型實現卓越效能外，應用層的公司還將獲得一種私有模型，使得這類公司不僅是建立在基礎AI模型（每個人都可訪問）之上的不錯UX。

4. 多模態模型：雖然本文主要關注語言模型和文字資料，但生成式 AI 還包含其他模態，例如影像和聲音。近來，人們正努力將不同模式組合到AI模型中，打造具備多模態輸入輸出能力的模型。最近，Google Research團隊發表了一篇論文（），展示瞭如何將文字轉化成音樂。這種模型本身就很強大，有了這種模型，沒有音樂背景的人能夠透過自然語言描述，生成音樂。

但試想一下，如果我們將這種模型與影像轉文字能力相結合，會怎麼樣呢？這意味著我們可以利用AI分析影片內容，生成描述性本文，最後由AI配上合適的音樂。另外，我們還可以反過來操作，如果已經根據文字提示生成了音樂，現在我們還可以用AI來生成相應影片。要做到以上這些，我們只需要向多模態模型發出一條指令。

黃仁勳是英偉達的創始人兼執行長，他曾於2023年1月訪問瑞典，在那期間，我們曾與他討論英偉達在生成式人工智慧領域的重點。他提到英偉達不再像以前一樣聚焦於單一模式，例如MT-NLG，而是致力於構建多模態模型。

5. 人類反饋的強化學習（RLHF）的重要性：儘管人類反饋強化學習已出現多年，但還說不準它會對LLM的效能產生怎樣的影響。

我們推測，與GPT3相比，GPT4在初始訓練資料和強化學習資料增加的情況下，其效能將獲得跨越式提升。由於ChatGPT的普及，OpenAI為強化學習積累到了前所未有的海量資料。雖然初始訓練資料與強化學習的人類反饋資料之間的相對重要性還未可知，但我們認為，強化學習很有可能就是GPT-4的秘密武器。

6. 擴充套件的重要性：如上所述，應用層公司可以收集相關的人類反饋進行強化學習。如果上面第五點關於人類反饋資料重要性的預測是正確的，那麼擁有大量消費者的應用公司將能夠聚集海量專有、關鍵資料，以改進模型。

考慮到微軟與OpenAI的合作伙伴關係，在這場由AI主導的競賽中，其它媒體都認為微軟會是註定的贏家，但我們不能忽略Meta、谷歌、蘋果、亞馬遜、阿里巴巴和微信等公司，因為他們擁有大型面向客戶的應用程式。要記住，資料才是改進大型語言模型唯一真正有效的替代方案，因為模型規模和框架都可以被複制（根據一些研究文章）。

7. 更多的公司將成為資料公司：因為訓練LLM需要大量的對話資料，所以那些能夠大規模收集此類資料的公司將受到高度重視。比如Twitter，它收集了最大的對話資料集之一。ChatGPT背後的模型就是在Twitter資料上進行訓練的，但Elon Musk知道後立即叫停了這類訓練。也許未來Twitter的大部分收入將來自於出售對話資料訪問權? Meta擁有Facebook、Instagram 和Whatsapp，是另一家可以訪問大量對話資料的企業，試想一下，如果Meta的對話資料成為一項獨立業務，會產生多麼大的價值呢？

8. 公眾輿論和監管的焦點仍在於AI倫理及其社會影響：版權問題、模型可信度、勞工問題和網路安全等話題已引發激烈辯論，甚至可能引起監管機構的注意。公司應謹慎應對監管環境。現在已經有許多法規示例即將出臺，例如歐盟AI法案和中國禁止建立無水印的AI生成媒體。目前的監管還處於不確定時期，在此之前，希望每個人都貢獻一份自己的力量，在AI應用中保持公平正義。

“ChatGPT們”的淘金時代