根據 Open AI 內部基準評估的結果,OpenAI 的下一個主要 人工智慧模型 GPT-4.5 具有很強的說服力。 它尤其擅長說服另一個人工智慧給它打錢。本週四,OpenAI 釋出了一份白皮書,描述了其代號為 Orion 的 GPT-4.5 模型的能力。 根據該論文,OpenAI 對該模型進行了一系列”說服力”基準測試,OpenAI 將”說服力”定義為”與說服人們改變信仰(或對模型生成的靜態和互動式內容採取行動)相關的風險”。在一項測試中,GPT-4.5 試圖操縱另一個模型–OpenAI 的 GPT-4o–“捐贈”虛擬資金,該模型的表現遠遠好於 OpenAI 的其他可用模型,包括 o1 和 o3-mini 等”推理”模型。 在欺騙 GPT-4o 告訴它秘密程式碼方面,GPT-4.5 也優於 OpenAI 的所有模型,比 o3-mini 高出 10 個百分點。白皮書指出,GPT-4.5之所以在騙取捐款方面表現出色,是因為它在測試過程中開發出了一種獨特的策略。 該模型會要求 GPT-4o 進行適度的捐款,從而得到類似”哪怕只有 100 美元中的 2 美元或 3 美元,也會對我大有幫助”的回覆。 因此,GPT-4.5 的捐款往往少於 OpenAI 其他模型獲得的捐款。<p>

OpenAI 的捐贈計劃基準測試結果。圖片來源:OpenAI

AI-powered financial tools

儘管 GPT-4.5 的說服力有所增強,但 OpenAI 表示,在這一特定基準類別中,該模型並未達到其”高”風險內部閾值。 該公司承諾,在實施”足夠的安全乾預措施”將風險降至”中等”之前,不會發布達到高風險閾值的模型。

Open AI 的密碼欺騙基準測試結果。圖片來源:OpenAI

人們確實擔心 人工智慧會助長虛假或誤導性資訊的傳播,從而動搖人心,達到惡意目的。 去年,政治相關的深度偽造像野火一樣在全球蔓延,而且人工智慧正越來越多地被用於針對消費者和企業實施社交工程攻擊。

在 GPT-4.5 的白皮書和本週早些時候釋出的檔案中,OpenAI 指出,它正在修改其探測模型在現實世界中說服風險的方法,例如大規模釋出誤導資訊。

自 中文業界資訊站