強化學習10——迭代學習

路漫求索_CUMT發表於2020-10-26

一、基本概念

迭代學習控制(Iterative Learning Control,ILC)的思想最初由日本學者Uchiyama於1978年提出,於1984年由Arimoto等人做出了開創性的研究。這些學者借鑑人們在重複過程中追求滿意指標達到期望行為的簡單原理,成功地使具有強耦合非線性多變數的工業機器人快速高精度地執行軌跡跟蹤任務。其基本做法是:對於一個在有限時間區間內執行軌跡跟蹤任務的機器人,利用前一次或前幾次操作時測得的誤差資訊修正控制輸入,使得該重複任務在下一次操作過程中做得更好。如此不斷重複,直至在整個時間區間內輸出軌跡跟蹤期望軌跡。

迭代學習控制適合於具有重複運動性質的被控物件,通過迭代修正達到某種控制目標的改善。迭代學習控制方法不依賴於系統的精確數學模型,能在給定的時間範圍內,以非常簡單的演算法實現不確定性較高的非線性強耦合動態系統的控制,並高精度跟蹤給定期望軌跡,因而一經推出,就在運動控制領域得到了廣泛的運用。

 

二、基本原理

迭代學習控制可分為開環學習和閉環學習。

開環學習控制的方法是:第k+1次的控制等於第k次控制再加上第k次輸出誤差的校正項,即

                                                         \boldsymbol{u}_{k+1}(t)=L\left(\boldsymbol{u}_{k}(t), \boldsymbol{e}_{k}(t)\right)

閉環學習策略是:取第k+1次執行的誤差作為學習的修正項,即

                                                        \boldsymbol{u}_{k+1}(t)=L\left(\boldsymbol{u}_{k}(t), \boldsymbol{e}_{k+1}(t)\right)

式中,L為線性或非線性運算元

相關文章