強化學習-task01
1.定義
強化學習討論的問題是一個 智慧體(agent) 怎麼在一個複雜不確定的環境(environment)裡面去極大化它能獲得的獎勵。
在強化學習過程中,agent 跟 environment 一直在互動。Agent 在環境裡面獲取到狀態,agent 會利用這個狀態輸出一個 action,一個決策。然後這個決策會放到環境之中去,環境會通過這個 agent 採取的決策,輸出下一個狀態以及當前的這個決策得到的獎勵。Agent 的目的就是為了儘可能多地從環境中獲取獎勵。
2.特徵
- 有 trial-and-error exploration ,它需要通過探索環境來獲取對這個環境的理解。
- agent 會從環境裡面獲得延遲的獎勵。
- 在強化學習的訓練過程中時間非常重要。因為得到的資料都是有這個時間關聯的,而不是 i.i.d 分佈的。在機器學習中,如果觀測資料有非常強的關聯,其實會使得這個訓練非常不穩定。這也是為什麼在監督學習中,我們希望 data 儘量是 i.i.d 了,這樣就可以消除資料之間的相關性。
- agent 的行為會影響它隨後得到的資料。在我們訓練 agent 的過程中,很多時候我們也是通過正在學習的這個 agent 去跟環境互動來得到資料。所以如果在訓練過程中,這個 agent 的模型很快死掉了,那會使得我們採集到的資料是非常糟糕的,這樣整個訓練過程就失敗了。所以在強化學習裡面一個非常重要的問題就是怎麼讓這個 agent 的行為一直穩定地提升。
相關文章
- 【Task01】Numpy學習打卡
- 強化學習強化學習
- 強化學習-學習筆記13 | 多智慧體強化學習強化學習筆記智慧體
- 【強化學習篇】--強化學習案例詳解一強化學習
- 【強化學習】強化學習術語表(A-Z)強化學習
- 深度強化學習day01初探強化學習強化學習
- 強化學習10——迭代學習強化學習
- matplotlib 強化學習強化學習
- 【強化學習篇】--強化學習從初識到應用強化學習
- 強化學習-學習筆記3 | 策略學習強化學習筆記
- 再探強化學習強化學習
- 強化學習分類強化學習
- 強化學習筆記強化學習筆記
- 強化學習之CartPole強化學習
- 強化學習-簡介強化學習
- 【強化學習】強化學習的基本概念與程式碼實現強化學習
- 強化學習-學習筆記5 | AlphaGo強化學習筆記Go
- 深度學習及深度強化學習研修深度學習強化學習
- 強化學習-學習筆記2 | 價值學習強化學習筆記
- 深度學習+深度強化學習+遷移學習【研修】深度學習強化學習遷移學習
- 強化學習-學習筆記12 | Dueling Network強化學習筆記
- 深度學習及深度強化學習應用深度學習強化學習
- 關於強化學習、深度學習deeplearning研修強化學習深度學習
- 強化學習入門 -KDnuggets強化學習
- 強化學習(十七) 基於模型的強化學習與Dyna演算法框架強化學習模型演算法框架
- 強化學習-學習筆記15 | 連續控制強化學習筆記
- 強化學習-學習筆記8 | Q-learning強化學習筆記
- 強化學習-學習筆記10 | 經驗回放強化學習筆記
- 強化學習-學習筆記1 | 基礎概念強化學習筆記
- 強化學習-學習筆記4 | Actor-Critic強化學習筆記
- 深度學習、強化學習核心技術實戰深度學習強化學習
- 強化學習(十一) Prioritized Replay DQN強化學習Zed
- 強化學習(十四) Actor-Critic強化學習
- 強化學習(十)Double DQN (DDQN)強化學習
- 《深度強化學習》手稿開放了!強化學習
- 強化學習的基礎缺陷強化學習
- 強化學習(一)模型基礎強化學習模型
- 無模型的強化學習方法模型強化學習