在過去的一年裡，大語言模型(LLM)風靡全球。2022 年底，OpenAI 的 ChatGPT 首次向公眾展示了大語言模型的革命效能力。

突然間，我們看到那些對 LLM 幾乎一無所知的人使用 ChatGPT 完成各種任務。“像我 10 歲時那樣給我解釋一下超新星”這樣的詢問，可以把一個複雜的概念描述得更清楚。使用者還可以使用 ChatGPT 撰寫從文章到詩歌的所有內容，有時在要求特定風格和形式的情況下，還會產生令人難以置信的滑稽效果。關於情人節的打油詩?沒問題。關於星球大戰的十四行詩?沒問題。在更實用的領域，我們看到 ChatGPT 被用於建立和除錯程式碼、翻譯語言、編寫電子郵件等。

無論是工作還是娛樂，使用者現在都有了更多的選擇。OpenAI 釋出 ChatGPT 後不久，其他競爭對手的 LLM 也紛紛亮相。谷歌釋出了Bard，而 Meta 則在授權下發布了 LLaMA，允許學術界研究、調整和擴充套件 LLM 的內部機制。從那時起，科技行業出現了一股明顯的熱潮，大大小小的公司要麼在開發自己的 LLM，要麼在嘗試如何利用第三方 LLM 的功能為客戶創造價值。

有鑑於此，企業應審慎考慮如何以負責任以及合乎道德的方式將 LLM 整合到業務流程中。各組織應首先了解LLM帶來的風險，以及如何管理和降低這些風險。

瞭解 LLM 的風險

在過去的幾個月裡，許多使用LLM的使用者都發現，LLM經常會出現幾種失敗模式。

首先，LLM 經常會幻覺出一些不真實的世界事實。例如，當一位記者問 ChatGPT“《紐約時報》何時首次報導了‘人工智慧’?時，得到的回答是“1956 年 7 月 10 日，在一篇題為《科學家預測，機器將具備學習和解決問題的能力》的文章中，報導了達特茅斯學院的一次會議”。

正如《泰晤士報》所指出的，“1956 年的會議是真實的，而這篇文章不真實”。之所以會出現這樣的錯誤，是因為當你向 LLM 提問時，它可以根據接受過訓練的資料編造出一個聽起來似是而非的答案。這些幻覺往往蘊含在足夠多的資訊中，有時甚至是正確的事實，因此它們能欺騙我們的次數比我們願意承認的還要多。

其次，查詢結果可能反映了 LLM 訓練資料中的偏差。這是因為基於歷史資料的模型會受到最初建立這些資料的人的偏見的影響。研究表明，LLM 可能會在其訓練資料中出現的短語之間建立聯絡，這些短語反映了一些刻板印象，例如哪些職業或情感是“男性化”或“女性化”的。

此外，偏見不僅會在LLM和人工智慧過程中延續，有時還會被放大。CNBC 報導稱，芝加哥的歷史資料意味著，基於這些資料的人工智慧演算法放大了 “紅線 ”的歧視過程，自動拒絕了非裔美國人的貸款申請。

第三，LLM在應用邏輯思維和處理數字時經常遇到困難。雖然簡單的數學問題通常都能正確解決，但解決問題所需的推理越複雜，LLM得出錯誤答案的風險就越大。

正如谷歌的一篇博文所指出的，典型的LLM可以被認為是運用了系統 1 思維，即“快速、直覺和毫不費力”的思維，但卻缺乏利用系統 2 思維的能力，即“緩慢、深思熟慮和努力”的思維。系統 2 思維是解決許多數學問題所需的逐步推理的關鍵組成部分。值得稱讚的是，谷歌在博文中概述了他們正在開發的一種新方法，以增強 LLM、Bard 的系統2思維能力。

在上述每一種情況下，LLM都有可能對問題做出自信、明確、文筆優美的回答。這也許是 LLM 最危險的地方：答案總是要提供的，即使它是虛構的、有偏見的或不正確的。

這些失效模式不僅會影響以LLM為基礎的人工智慧模型的準確性(例如，一篇文章的摘要充斥著虛假引文或邏輯混亂，是沒有用的!)，而且還會產生道德影響。最終，如果您的人工智慧模型輸出不準確，您的客戶(以及監管機構)將要求您的企業承擔責任。

防範 LLM 的缺陷

當然，開發 LLM 的人工智慧工程師正在努力減少這些失效模式的發生，並安裝防護欄。事實上，GPT-4 在減少這些失效模式的發生方面取得的進展非常顯著。不過，許多企業對在另一家公司託管的模型之上構建人工智慧解決方案持謹慎態度，這是有充分理由的。

公司理所當然不願意讓自己的專有資料離開自己的 IT 基礎設施，尤其是當這些資料包含客戶的敏感資訊時。解決安全問題的辦法可能是構建內部 LLM，但這需要投入大量的時間和資源。

此外，如果不擁有 LLM，使用者就只能任由第三方開發人員擺佈。我們無法保證第三方不會在幾乎沒有任何警告的情況下更新其 LLM 模型，從而引入上述故障模式的新例項;事實上，在生產環境中，我們需要嚴格控制模型更新的時間，並且需要時間來評估任何變更可能產生的下游影響。

最後，根據不同的使用情況，可能還需要考慮支援客戶需求的可擴充套件性、網路延遲和成本等問題。

基於上述原因，許多企業在設計人工智慧解決方案時，並不依賴於特定的 LLM。理想情況下，LLM 可被視為即插即用，這樣企業就可以根據業務需求，在不同的第三方供應商之間切換，或使用自己內部開發的 LLM。

因此，任何認真考慮將 LLM 整合到業務流程中的人都應該制定一個計劃，有條不紊地描述行為模式，特別是故障模式的準確性和例項，以便就使用哪種 LLM 以及是否切換到另一種 LLM 做出明智的決定。

鑑定和驗證 LLM

表徵基於 LLM 的人工智慧解決方案行為模式的一種方法是使用其他形式的人工智慧來分析 LLM 的輸出。智慧探索(Intelligent Exploration)是一種資料探索方法，其基礎是使用與多維視覺化緊密結合的人工智慧例程來發現洞察力並清晰地加以說明。讓我們來考慮一下智慧探索可以幫助我們緩解 LLM 幾種失敗模式的一些方法。

例如，假設我們想建立一個網路應用程式，讓客戶向 LLM 提出一些關於在另一個城市旅遊的問題，當然，我們不希望 LLM 由於幻覺而建議客戶參觀博物館或其他不存在的景點(例如，如果問題涉及一個虛構的城市)。在負責任地開發應用程式時，我們可能會決定對查詢中出現的特定詞語是否會增加 LLM 產生幻覺的可能性(而不是提醒使用者該城市並不存在)進行定性。由智慧探索驅動的一種方法可以是：

開發一組測試查詢，其中一些涉及虛構的城市，另一些涉及真實的城市;
訓練一個監督學習模型(如隨機森林模型)，以預測 LLM 是否會在給定提示中出現的單詞下產生幻覺;
找出預測能力最強的三個詞(根據訓練好的模型);
建立一個多維圖，其中資料點的 X、Y 和 Z 維度與(查詢中)預測能力最強的三個單詞的計數相對應，每個點的顏色表示該查詢是否觸發了 LLM 產生幻覺。

這種人工智慧驅動的視覺化方法可以幫助快速識別特定的詞語組合，這些往往會觸發 LLM 產生幻覺或引導它遠離幻覺。

再舉一個例子，假設我們想使用 LLM 根據一份總結貸款申請人的檔案來決定何時批准住房貸款，而我們擔心 LLM 在建議發放貸款時可能會出現不適當的偏差。我們可以使用智慧探索(Intelligent Exploration)功能，透過以下過程來研究這種可能的偏差：

建立一個網路圖，圖中的每個節點都是一份貸款申請檔案，兩份檔案之間的聯絡強度以這兩份檔案的關聯度為基礎(例如，兩份檔案中共同出現的單詞或短語的數量);
執行網路社群檢測方法(如盧萬演算法)，將網路分割成互不相連的社群;
進行統計測試，以確定哪些社群(如果有的話)的被拒貸款申請比例與整個人群的被拒貸款申請比例存在顯著差異;
讀取標記社群中的檔案子集，以確定 LLM 是否以不正當理由拒絕該社群中的申請人。或者，如果貸款申請檔案中增加了其他特徵，如收入、郵政編碼、民族、種族或性別，那麼您可以使用進一步的統計測試來確定被標記的社群是否與特定特徵值有不成比例的關聯。

值得注意的是，視覺化網路圖及其社群可以顯示哪些社群彼此密切相關，從而有助於推動進一步的分析。

這兩個例子說明了傳統的人工智慧程式(如隨機森林或盧萬演算法)如何與多維視覺化功能相結合，幫助識別和研究 LLM 的行為模式和偏差。此外，還可以定期執行這些流程，以瞭解第三方 LLM 的行為和偏差如何隨著時間的推移而發生變化，或者比較您可能考慮改用的另一種 LLM 與您現在使用的 LLM 相比有何不同。

如果使用得當，LLM 可以帶來巨大的好處，但也可能帶來巨大的風險。這就需要企業想方設法，比如開發和維護一套以智慧探索為基礎的分析例程，讓他們能夠自信地利用 LLM，以負責任、知情和合乎道德的方式解決業務問題。

作者 Sagar Indurkhya 博士是 Virtualitics 公司 NLP 小組的負責人。

大語言模型LLM如何與人類共同做出戰略決策？

相關文章