關於強化學習需要了解的知識

CDA 資料分析師發表於2019-03-06


自從人工智慧這一事物流行以後,也開始流行了很多的新興技術,比如機器學習、深度學習、強化學習、增強學習等等,這些技術都在人工智慧中佔據著很大的地位。我們在這篇文章中重點給大家介紹一下關於強化學習需要了解的知識,希望這篇文章能夠更好地幫助大家理解強化學習。

為什麼強化學習是一個熱門的研究課題呢?是因為在人機大戰中強化學習在阿爾法狗中大放光彩,也正是這個原因,強化學習越來越受到科研人員的喜愛。那麼強化學習是什麼呢?強化學習與其它機器學習方法有什麼關係呢?

首先,強化學習是一種機器學習方法,強化學習能夠使Agent能夠在互動式環境中年通過試驗並根據自己的行動和經驗反饋的錯誤來進行學習。雖然監督學習和強化學習都使用輸入和輸出之間的對映關係,但強化學習與監督學習不同,監督學習提供給Agent的反饋是執行任務的正確行為,而強化學習使用獎勵和懲罰作為積極和消極行為的訊號。

那麼強化學習和無監督學習有什麼不同呢?如果和無監督學習相比,強化學習在目標方面有所不同。雖然無監督學習的目標是找出資料點之間的相似性和不同性,但是在強化學習中,其目標是找到一個合適的動作模型,能夠最大化Agent的累積獎勵總額。

那麼如何建立一個基本的強化學習的問題呢?這就需要我們先了解一下增強學習中的一些概念,第一就是環境,也就是Agent操作的現實世界。第二就是狀態,也就是Agent的現狀。第三就是獎勵,也就是來自環境的反饋。第四就是策略,也就是將Agent的狀態對映到動作的方法。第五就是價值,也就是Agent在特定狀態下采取行動所得到的報酬。所以說,為了建立一個最優策略,Agent需要不斷探索新的狀態,同時最大化其所獲獎勵累積額度,這也被稱作試探和權衡。

而馬爾可夫決策過程是用來描述增強學習環境的數學框架,幾乎所有的增強學習問題都可以轉化為馬爾科夫決策過程。馬爾科夫決策由一組有限環境狀態、每個狀態中存在的一組可能行為、一個實值獎勵函式以及一個轉移模型組成。然而,現實世界環境可能更缺乏對動態環境的任何先驗知識。通過這些去試錯,一直在每一步中去嘗試學習最優的策略,在多次迭代後就得到了整個環境最優的策略。

那麼最常用的強化學習演算法有哪些呢?Q-learning和SARSA是兩種常用的model-free強化學習演算法。雖然它們的探索策略不同,但是它們的開發策略卻相似。雖然Q-learning是一種離線學習方法,其中Agent根據從另一個策略得到的行動a*學習價值,但SARSA是一個線上學習方法,它從目前的策略中獲得當前行動的價值。這兩種方法實施起來很簡單,但缺乏一般性,因為無法估計出不可見狀態的價值。

在這篇文章中我們給大家介紹了很多關於強化學習的知識,通過這些知識我們不難發現,強化學習是一個十分實用的內容,要想學好人工智慧就一定不能夠忽視對強化學習知識的掌握,最後祝願大家早日拿下強化學習。

相關文章