一個 token 就能控制模型快些解答或慢點思考。
System 1:系統 1,速度快,基於直覺。
System 2:系統 2,速度更慢,更加深思熟慮。
論文標題:Dualformer: Controllable Fast and Slow Thinking by Learning with Randomized Reasoning Traces
論文地址:https://arxiv.org/pdf/2410.09918
該團隊注意到,即便 Searchformer 是在完整的 A* 搜尋軌跡上訓練的,但它也會生成更短的勾勒搜尋過程的軌跡。
研究表明,人類在做決策時往往依賴捷徑和模式,這一概念被稱為系統 1 思維。
D1:丟棄一個 close 子句;
D2:丟棄一個子句中的成本 token;
D3:丟棄一個 create 子句。
Level 1:去除搜尋軌跡中所有 close 子句。
Level 2:更進一步,額外丟棄所有成本 token。
Level 3:更加激進,進一步隨機丟棄 30% 的 create 子句。
Level 4:丟棄整條搜尋軌跡。
快速模式
慢速模式
與搜尋動態引導的比較