選擇和遷移操作的具體選擇;
一個提示集,可使用 LLM 實現初始化、重組(雜交和突變)以及島嶼重置操作;
一個適應度函式,用於評估給定解的質量並可選擇性地反饋檢測到的問題。
透過衡量最佳化目標為解評分(如果有的話);
驗證解是否滿足給定約束;
提供相應的文字反饋。
根據適應度直接選擇排名前 N_top 的候選解;
首先根據適應度選擇排名前 N_candidate 的候選解,然後提示 LLM 從這個池中選擇 N_top 個彼此有實質性差異的好候選解。消融研究表明,後一種策略的效果更好。
1-Pass,其中使用 LLM 的單次前向傳遞得到解。
Best-of-N,獨立生成最多 800 個候選解,直到找到成功的解(與 Mind Evolution 上限相同)。
Sequential-Revision+,其中獨立提出 10 個候選解,然後使用 RCC 過程分別修改 80 輪。注意使用 10 個獨立的 80 輪改進執行緒而不是單個 800 輪改進,因為該團隊表示很少能觀察到 80 輪後的改進。這個基準方法類似於執行 10 次多輪 Reflexion。
隨著隱藏訊息 M 的長度增加,難度增加。該團隊設定 10 ≤ |M| ≤ 30。
M 中數字的重複性。重複越多,約束越嚴格。
重複數字彼此之間的「接近程度」。每種寫作形式都規定了同一個詞的重複和出現接近程度的可接受性。LLM 必須在遵守形式和正確編碼訊息的需求之間取得平衡。
根據經驗,隨著 B(密碼詞之間的平均距離)增加,問題變得更加困難。測試中,3 ≤ B ≤ 7。