強化學習在金融市場中的應用(上)

宽邦科技發表於2019-01-17

強化學習基本概念

強化理論最開始是心理學的概念,它是過程型激勵理論之一,最早要追溯到美國的心理學家斯金納。斯金納認為人的行為是對其所獲刺激的函式。如果這種刺激對他有利,則這種行為就會重複出現;若對他不利,則這種行為就會減弱直至消失。根據強化的性質和目的,可以分為正強化和負強化兩大型別。斯金納認為通過獎懲的設計,可以改變人或者動物的行為習慣。

在強化學習的基本概念和斯金納的差不多,強化學習通過agent與環境的動作/互動Action,得到與之對應的獎勵或者懲罰,並在這樣的環境中進行迭代,與環境的互動意味著agent可以不斷在經驗中修正自己的決策,也就是policy。

大致框架如下圖所示:

強化學習在金融市場中的應用(上)

下面我們來舉一個大家都熟悉的例子,來幫助大家理解強化學習的基本概念:

強化學習在金融市場中的應用(上)

Pacman大家小時候在街機或者遊戲機上可能都玩過,下面我們用強化學習的術語來定義pacman這個problem。

環境 Environment

在強化學習中,我們通常對環境的定義是所有於agent進行互動的東西。在我們這個例子裡,pacman的環境包含了機器人agent的遊戲世界,比如迷宮的形狀、迷宮的不可穿牆性,也包含了遊戲規則,比如機器人pacman可以吃豆子變無敵、無敵的時間、無敵時候可以吃掉敵人、敵人還可以再生等等。簡單說是可以可以容納agent的一個“容器”,同時它有它自己的世界和規則。

相關文章