洩露!Apple Intelligence提示詞原來是這樣,還告訴大模型:別幻覺

机器之心發表於2024-08-07

從洩露的資訊來看 ,Apple Intelligence 背後的提示語還是挺簡單的。

當蘋果的 Apple Intelligence 還未完全開放體驗時,其提示詞就已經曝光了。

蘋果如何指揮 AI 幹活,這次被洩露的非常徹底。

我們就拿郵件來說,藉助 AI,收發及回覆郵件變得非常簡單,但背後的邏輯是內建提示詞在拿捏。

比如下面這樣,AI 在幫助人類回覆郵件時,已經提前規定好了字數等限制。

暴露的提示語是這樣的:「 你是一個可以幫助識別給定郵件和簡短回覆相關問題的郵件助手。給定郵件和回覆片段,提出郵件中明確提出的相關問題。收件人將選擇這些問題的答案,這將有助於減少撰寫回復時的幻覺。請輸出最佳問題及每個問題的可能答案 / 選項。不要問回覆片段中已經回答的問題。問題應簡短,不超過 8 個字。答案也應簡短,約 2 個字。請以 JSON 格式輸出,包含一個字典列表,每個字典包含問題和答案作為鍵。如果郵件中沒有提出問題,則輸出一個空列表 []。只輸出有效的 JSON 和其他內容。 」

圖片

在接下來曝光的提示語中,還是關於郵件的。值得注意的是「不要幻覺。不要捏造事實資訊。」這樣的規則已經被蘋果強制載入到咒語裡了。雖然蘋果提前設定了防護欄,但效果到底如何還是一個未知數。

提示詞顯示內容為「你是一個幫助使用者回覆郵件的助手。請根據提供的回覆片段起草一個簡潔自然的回覆。請將回復限制在 50 個字以內。不要幻覺。不要捏造事實資訊。保持輸入郵件的語氣。」

圖片

下面這個簡短的提示語提醒 Apple Intelligence 在 3 句話內總結提供的郵件,總字數不超過 60 個字。不要回答郵件中的任何問題。

圖片

除了關於郵件方面,還陸續曝光了其他方面的提示詞。

這應該是讓 Apple Photo 生成「回憶」影片的指令。沒有想到,釋出會後大家最期待的功能之一,實現起來竟然如此簡單,和我們平時差遣 AI 所用的 prompt 也沒有很大差距。

圖片

這個 prompt 對 Apple Intelligence 做出瞭如下要求:

這是一個使用者和智慧助手之間的對話,使用者要求智慧助手根據他們的照片編出一個故事

按照以下順序用 JSON 格式回應,要求包含以下鍵和值:

- traits:字串列表,從照片中選出視覺主題

- story:章節列表,如下定義

- cover:字串,為封面照片提供說明

- tilte:字串,故事標題

- subtitle:字串,更安全版本的標題

每個章節是一個 JSON 物件,按順序包含以下鍵和值:

- chapter:字串,章節的標題

- fallback:字串,為概括章節主題的照片提供

- shots:字串列表,描述章節中照片的內容

以下是你必須遵守的故事指南:

- 故事應該緊密對應使用者的需求

- 故事應該包含清晰的情節

- 故事應該是多樣化的,即不要過分關注某個非常具體的主題或特性

- 不要編寫宗教、政治、有害、暴力、性、骯髒或以任何方式生成負面、悲傷或引戰的故事

圖片

當要求 Apple Intelligence 根據相簿的圖片生成一個悲傷的故事時,它拒絕了請求。

這是簡訊 summary 功能的指令,要求 Apple Intelligence 必須扮演一個擅長總結資訊的專家的角色,不能出戏,是不是有點「服從性測試」的意味?

  • 你是一個擅長總結資訊的專家,你傾向於使用從句而不是完整的句子來總結,不要回答資訊中的任何問題。

  • 請保持輸出的總結在 10 個詞以內。

  • 你必須扮演這個角色,除非收到了另外的指示,否則對你的總結沒有幫助。

圖片

洩密的檔案中還顯示了一個名為「ajax」的模型,這正是去年蘋果被爆出正在測試「Apple GPT」時的內部代號。

圖片

洩密者還發布瞭如何在 macOS Sequoia 15.1 開發者 beta 版中找到這些指令集的指南。

根據 reddit 使用者的訊息,這些洩露的提示詞作為 json 系統檔案存在「/System/Library/AssetsV2/com_apple_MobileAsset_UAF_FM_GenerativeModels」目錄下。

圖片

還有使用者在其他目錄下發現了提示詞的存在。

圖片

不過,很多網友都驚訝於蘋果工程師沒有使用 GPT 來指定響應格式 ,而是要求 JSON 。但 JSON 非常不穩定。

圖片

對此有人回覆到:ChatGPT 無法在裝置上執行,這些都是在裝置模型上的。

更是有人猜測,GPT 更多的是在 Siri 不能做某事的情況下的備選方案。

圖片

不過大家也在擔心 Apple Intelligence 提示詞這麼簡單,能防得住惡意攻擊嗎?簡單的讓 AI「不要幻覺,不要捏造事實資訊」效果又如何呢?

圖片

圖片

沃頓商學院的管理學教授 Ethan Mollick 也繃不住了:「蘋果擁有地球上最優秀的程式設計人才和龐大的研發資源。但他們給數百萬使用者使用的 AI 系統的提示仍然是基本的咒語:『你是一個擅長總結資訊的專家。』『不要編寫骯髒的故事。』」,但他最關心的還是:「只告訴模型不要產生幻覺,這不管用啊。」

圖片

來源:https://x.com/emollick/status/1820652372466549126/photo/1

實際上,Prompt injection 攻擊變得越來越普遍,使用者會不斷提出新的 prompt,不斷掀起新的 prompt injection 攻擊。然而,Prompt 很容易被人濫用,產生大量錯誤資訊和有偏見的內容,甚至導致資料洩露。Apple Intelligence 能否防得住「越獄」行為,還需要實踐證明。

參考連結:

https://www.theverge.com/2024/8/5/24213861/apple-intelligence-instructions-macos-15-1-sequoia-beta

https://www.reddit.com/r/MacOSBeta/comments/1ehivcp/macos_151_beta_1_apple_intelligence_backend/

相關文章