強化學習-task01

weixin_43868320發表於2020-10-20

1.定義

強化學習討論的問題是一個 智慧體(agent) 怎麼在一個複雜不確定的環境(environment)裡面去極大化它能獲得的獎勵。
在這裡插入圖片描述
在強化學習過程中,agent 跟 environment 一直在互動。Agent 在環境裡面獲取到狀態,agent 會利用這個狀態輸出一個 action,一個決策。然後這個決策會放到環境之中去,環境會通過這個 agent 採取的決策,輸出下一個狀態以及當前的這個決策得到的獎勵。Agent 的目的就是為了儘可能多地從環境中獲取獎勵。

2.特徵

  1. 有 trial-and-error exploration ,它需要通過探索環境來獲取對這個環境的理解。
  2. agent 會從環境裡面獲得延遲的獎勵。
  3. 在強化學習的訓練過程中時間非常重要。因為得到的資料都是有這個時間關聯的,而不是 i.i.d 分佈的。在機器學習中,如果觀測資料有非常強的關聯,其實會使得這個訓練非常不穩定。這也是為什麼在監督學習中,我們希望 data 儘量是 i.i.d 了,這樣就可以消除資料之間的相關性。
  4. agent 的行為會影響它隨後得到的資料。在我們訓練 agent 的過程中,很多時候我們也是通過正在學習的這個 agent 去跟環境互動來得到資料。所以如果在訓練過程中,這個 agent 的模型很快死掉了,那會使得我們採集到的資料是非常糟糕的,這樣整個訓練過程就失敗了。所以在強化學習裡面一個非常重要的問題就是怎麼讓這個 agent 的行為一直穩定地提升。

相關文章