【強化學習】強化學習/增強學習/再勵學習介紹
Deepmind團隊在17年12月5日釋出的最新Alpha Zero中,非常重要的一種方法就是強化學習(reinforcement learning),又稱再勵學習、評價學習,是一種重要的機器學習方法,靠自身的經歷進行學習。通過這種方式,RLS在行動-評價的環境中獲得知識,改進行動方案以適應環境。正因為可以在小資料量的情況下靠自身的行動獲得經驗,所以Alpha Zero可以通過自我對弈進行學習提高。深度學習的一種分類方式:監督學習、無監督學習、半監督學習、強化學習。
基本原理
強化學習是從動物學習、引數擾動自適應控制等理論發展而來,其基本原理是:如果Agent的某個行為策略導致環境正的獎賞(強化訊號),那麼Agent以後產生這個行為策略的趨勢便會加強。Agent的目標是在每個離散狀態發現最優策略以使期望的折扣獎賞和最大。強化學習把學習看作試探評價過程,Agent選擇一個動作用於環境,環境接受該動作後狀態發生變化,同時產生一個強化訊號(獎或懲)反饋給Agent,Agent根據強化訊號和環境當前狀態再選擇下一個動作,選擇的原則是使受到正強化(獎)的概率增大。選擇的動作不僅影響立即強化值,而且影響環境下一時刻的狀態及最終的強化值。如圖所示。
簡單來說就是給你一隻小白鼠在迷宮裡面,目的是找到出口,如果他走出了正確的步子,就會給它正反饋(糖),否則給出負反饋(點選),那麼,當它走完所有的道路後。無論比把它放到哪兒,它都能通過以往的學習找到通往出口最正確的道路。
RL最重要的3個特點在於:(1)基本是以一種閉環的形式;(2)不會直接指示選擇哪種行動(actions);(3)一系列的actions和獎勵訊號(reward signals)都會影響之後較長的時間。
總的來說,RL與其他機器學習演算法不同的地方在於:其中沒有監督者,只有一個reward訊號;反饋是延遲的,不是立即生成的;時間在RL中具有重要的意義;agent的行為會影響之後一系列的data。
模型設計
一種RL(reinforcement learning) 的框架:
--------------------------------
for
1. 觀測到資料
2. 選擇action
3. 得到損失
目標是最小化損失
--------------------------------
以吃豆子游戲為例,解釋一下模型設計的主要元素,輸入輸出如下所示:
輸入:
狀態(State)=環境,例如迷宮中的每一格是一個state,例如(1,3)
動作(Action)=在每個狀態下,有什麼行動是容許的,例如{上、下、左、右}
獎勵(Rewards)=進入每個狀態時,能帶來正面或負面的價值,迷宮中的那格可能有食物(+1),也可能有怪獸(-100)
輸出:方案(Policy)=在每個狀態下,你會選擇哪個行動?
以上四個元素(S A R P)就構成了一個強化學習系統。
AlphaZero的設計中的主要演算法之一就是強化學習,原文如下:
在RL問題中,有四個非常重要的概念:
(1)規則(policy)
Policy定義了agents在特定的時間特定的環境下的行為方式,可以視為是從環境狀態到行為的對映,常用 π來表示。policy可以分為兩類:
確定性的policy(Deterministic policy): a=π(s)
隨機性的policy(Stochastic policy): π(a|s)=P[At=a|St=t]
其中,t是時間點,t=0,1,2,3,……
St∈S,S是環境狀態的集合,St代表時刻t的狀態,s代表其中某個特定的狀態;
At∈A(St),A(St)是在狀態St下的actions的集合,At代表時刻t的行為,a代表其中某個特定的行為。
(2)獎勵訊號(a reward signal)
Reward就是一個標量值,是每個time step中環境根據agent的行為返回給agent的訊號,reward定義了在該情景下執行該行為的好壞,agent可以根據reward來調整自己的policy。常用R來表示。
(3)值函式(value function)
Reward定義的是立即的收益,而value function定義的是長期的收益,它可以看作是累計的reward,常用v來表示。
(4)環境模型(a model of the environment)
整個Agent和Environment互動的過程可以用下圖來表示:
其中,t是時間點,t=0,1,2,3,……
St∈S,S是環境狀態的集合;
At∈A(St),A(St)是在狀態St下的actions的集合;
Rt∈R∈R 是數值型的reward。
強化學習主要方法簡介
強化學習的方法可以從不同維度進行分類:
是否需要對環境理解:model free和model-based
基於概率(Policy-based)和基於價值(Value-based)的RL
回合更新(monte-carlo update)和單步更新(temporal-difference update)的RL
線上學習(on-policy)和離線學習(off-policy)
無論從哪個角度分類,主要的方法有: policy gradients、q learning、sarsa 、 actor-critic、Monte-carlo learning、 Deep-Q-Network
這裡強烈推薦一個簡潔清晰的介紹視訊,6分鐘直接明瞭的說明各種方法的特點:
莫煩python:http://v.youku.com/v_show/id_XMTkyMDY5MTk2OA==.html
應用案例及python程式碼
有很多種場景應用的都是強化學習,AlphaZero最為出名,其他還有直升機特技飛行、機器人行走、玩遊戲比人類還要好等等。
舉個例子:我們想要實現的,就是一個這樣的小車。小車有兩個動作,在任何一個時刻可以向左運動,也可以向右運動,我們的目標是上小車走上山頂。一開始小車只能隨機地左右運動,在訓練了一段時間之後就可以很好地完成我們設定的目標了 。
我們使用的演算法就是最簡單的Deep Q Learning演算法,演算法的流程如下圖所示。
完整程式碼如下:
import tensorflow as tf
import numpy as np
import gym
import randomfrom collections
import deque
EPISDOE = 10000STEP = 10000ENV_NAME = 'MountainCar-v0'BATCH_SIZE = 32INIT_EPSILON = 1.0FINAL_EPSILON = 0.1REPLAY_SIZE = 50000TRAIN_START_SIZE = 200GAMMA = 0.9def get_weights(shape):
weights = tf.truncated_normal( shape = shape, stddev= 0.01 ) return tf.Variable(weights)def get_bias(shape):
bias = tf.constant( 0.01, shape = shape ) return tf.Variable(bias)class DQN():
def __init__(self,env):
self.epsilon_step = ( INIT_EPSILON - FINAL_EPSILON ) / 10000
self.action_dim = env.action_space.n
print( env.observation_space )
self.state_dim = env.observation_space.shape[0]
self.neuron_num = 100
self.replay_buffer = deque()
self.epsilon = INIT_EPSILON
self.sess = tf.InteractiveSession()
self.init_network()
self.sess.run( tf.initialize_all_variables() ) def init_network(self):
self.input_layer = tf.placeholder( tf.float32, [ None, self.state_dim ] )
self.action_input = tf.placeholder( tf.float32, [None, self.action_dim] )
self.y_input = tf.placeholder( tf.float32, [None] )
w1 = get_weights( [self.state_dim, self.neuron_num] )
b1 = get_bias([self.neuron_num])
hidden_layer = tf.nn.relu( tf.matmul( self.input_layer, w1 ) + b1 )
w2 = get_weights( [ self.neuron_num, self.action_dim ] )
b2 = get_bias( [ self.action_dim ] )
self.Q_value = tf.matmul( hidden_layer, w2 ) + b2
value = tf.reduce_sum( tf.mul( self.Q_value, self.action_input ), reduction_indices = 1 )
self.cost = tf.reduce_mean( tf.square( value - self.y_input ) )
self.optimizer = tf.train.RMSPropOptimizer(0.00025,0.99,0.0,1e-6).minimize(self.cost) return
def percieve(self, state, action, reward, next_state, done):
one_hot_action = np.zeros( [ self.action_dim ] )
one_hot_action[ action ] = 1
self.replay_buffer.append( [ state, one_hot_action, reward, next_state, done ] ) if len( self.replay_buffer ) > REPLAY_SIZE:
self.replay_buffer.popleft() if len( self.replay_buffer ) > TRAIN_START_SIZE:
self.train() def train(self):
mini_batch = random.sample( self.replay_buffer, BATCH_SIZE )
state_batch = [data[0] for data in mini_batch]
action_batch = [data[1] for data in mini_batch]
reward_batch = [ data[2] for data in mini_batch ]
next_state_batch = [ data[3] for data in mini_batch ]
done_batch = [ data[4] for data in mini_batch ]
y_batch = []
next_state_reward = self.Q_value.eval( feed_dict = { self.input_layer : next_state_batch } ) for i in range( BATCH_SIZE ): if done_batch[ i ]:
y_batch.append( reward_batch[ i ] ) else:
y_batch.append( reward_batch[ i ] + GAMMA * np.max( next_state_reward[i] ) )
self.optimizer.run(
feed_dict = {
self.input_layer:state_batch,
self.action_input:action_batch,
self.y_input:y_batch
}
) return
def get_greedy_action(self, state):
value = self.Q_value.eval( feed_dict = { self.input_layer : [state] } )[ 0 ] return np.argmax( value ) def get_action(self, state):
if self.epsilon > FINAL_EPSILON:
self.epsilon -= self.epsilon_step if random.random() < self.epsilon: return random.randint( 0, self.action_dim - 1 ) else: return self.get_greedy_action(state)def main():
env = gym.make(ENV_NAME)
agent = DQN( env ) for episode in range(EPISDOE):
total_reward = 0
state = env.reset() for step in range(STEP):
env.render()
action = agent.get_action( state )
next_state, reward, done, _ = env.step( action )
total_reward += reward
agent.percieve( state, action, reward, next_state, done ) if done: break
state = next_state print 'total reward this episode is: ', total_rewardif __name__ == "__main__":
main()
如想了解演算法關鍵設定,請參考CSDN楊思達zzz:http://blog.csdn.net/supercally/article/details/54767499
學習資源
授人以漁,分享以下強化學習的相關學習資源:
1. Udacity課程1:Machine Learning: Reinforcement Learning,以及更深入的Udacity課程2:Reinforcement Learning
2. 經典教科書:Sutton & Barto Textbook: Reinforcement Learning: An Introduction 網頁中可免費下載新版(第二版)初稿
3. UC Berkeley開發的經典的入門課程作業-程式設計玩“吃豆人”遊戲:Berkeley Pac-Man Project (CS188 Intro to AI)
4. Stanford開發的入門課程作業-簡化版無人車駕駛:Car Tracking (CS221 AI: Principles and Techniques)
5.CS 294: Deep Reinforcement Learning, Fall 2015 CS 294 Deep Reinforcement Learning, Fall 2015。課程安排和資料很好。推薦最為RL進階學習。
注:以上Berkeley和Stanford的課程專案都是精心開發的課程作業,已經搭建好了基礎程式碼,學習者可專注於實現核心演算法,並且有自動評分程式(auto-grader)可以自測。
參考資料:
百度百科詞條:強化學習
CSDN:Lili_Y_Love,強化學習(Reinforcement Learning, RL)初步介紹
SegmentFault:方老司,《深入淺出機器學習》之強化學習
DeepMind:Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm。17.12.05
知乎:不愛老婆的豬,https://www.zhihu.com/question/41775291/answer/92740775
莫煩python:http://v.youku.com/v_show/id_XMTkyMDY5MTk2OA==.html
CSDN楊思達zzz:http://blog.csdn.net/supercally/article/details/54767499
強化學習的入門之旅
編譯:T.R
來源:argmin.net 將門創投
深度強化學習可以用於在圍棋中實現超人的表現,在atari遊戲中成為高手,同時也可以控制複雜的機器人系統,自動調節深度學習系統、管理網路堆疊中的佇列問題,此外還能改善資料中心的能耗效率…這幾乎就是一個神通廣大的技術啊!但是我們需要對這種鋪天蓋地的媒體宣傳保持足夠清醒的頭腦。作者希望在這篇文章中為讀者呈現出強化學習的真實面貌,讓我們明白什麼是強化學習能做的而且能出色完成的,而哪些又僅僅是停留在紙面上的假設而已。同時作者還認為機器學習中的一些重要問題將可以通過強化學習的角度予以解決。
強化學習令人不解的原因主要在於它需要我們利用一種在通常機器學習中不常用的核心概念去思考。首先你需要考慮時變的統計學模型並理解資料中的依賴只是暫時的相關而已;第二、你應該理解統計學習問題中的反饋效應,每一次行為後對於結果的觀測分佈,強化學習系統必須適應這些分佈。這兩個方面都理解起來都十分困難,在這篇文章裡作者將強化學習歸結成了一種預測分析的模式,而在隨後的文章裡則是以優化控制的形式展開的。每一種都和我們熟知的機器學習問題有很大的不同。
強化學習與預測分析
人們一般認為機器學習擁有三根重要的柱石:非監督學習、監督學習、強化學習,這三個部分基本上包含了機器學習研究與應用的方方面面。
那他們之間有什麼不同呢?每一種方法的輸入都是一列索引和對應的特徵,但對應的輸出卻各不相同。在非監督學習中,演算法的目標是對資料進行有效的歸納總結,我們可以把這一過程視為模型將輸入的x資料轉換為了可以歸納表示輸入資訊的低維度輸出z。常見的非監督學習包括聚類或者將樣本對映到其他的維度上,下圖分別表示了常見的聚類、詞雲和流形學習等典型的方法。
而對於監督學習來說、我們需要通過輸入資料x預測出輸出資料的某一特徵y,這是我們最為熟悉的機器學習方法了,主要包括迴歸和分類兩大分支。
而對於強化學習來說,對於特定的輸入x對應著兩個輸出分別是action和reward。強化學習的目標就是在給定輸入的情況下儘可能地選擇出能使r(獎勵)最大的a(行為)。有很多問題可以用強化學習來解決,從遊戲中的線上決策到網路世界中的最大化收益都可以通過這樣的方式來獲取較好的解決方案。
對於更為廣闊的領域來說,下面這張圖道出了各種方法和應用所處的階段和特點。
描述性分析指的是通過歸納資料使其具有更好的可解釋性,非監督學習就是一種很好的描述性分析方法,而預測分析的目標則是基於現在的資料估計未來的結果,而最終的規範性分析(prescriptive analytics)則旨在指導行動以保證結果。強化學習恰恰就屬於最後一個範疇。
上圖描繪的結果可能與傳統的機器學習智慧大相徑庭,而本文想呈現的是一個不同的觀點。根據Gartner的觀點,非監督學習是這三類機器學習中最容易的一種,因為它的風險會很低。如果你所需要的僅僅只是歸納總結的話它幾乎不會給出錯誤答案。就像GAN對你的臥室顏色進行了正確或者錯誤的渲染對於結果沒有影響。描述性模型和非監督學習主要著眼於美學方面而不是具體的目標;預測分析和監督學習則充滿了更多的挑戰,我們還需要分析它的精度以及在新資料中的行為和表現。
而最大的挑戰則來自於規範性分析。這一類模型的目標十分清晰:強化學習和規範性分析需要分析輸入並決定要採取的行動和明確對應的獎勵。規範性分析所面對的新資料來源於不確定的環境中,隨後需要作出決策並利用這些決策影響環境。這樣的系統會在好的決策下獲得豐厚的獎勵,而在糟糕的決策後則面臨著災難性的結果。但由於反饋來源於複雜的相互聯絡中使其在理論上難以研究。對於真實的計算系統來說,無論是自動駕駛系統還是龐大社交網站,與真實世界的活躍互動遠遠超過了你我的想象!
這就是我們需要詳細理解強化學習的原因,它為我們提供了一種可以進行互動的機器學習框架。作者認為強化學習將會在機器學習領域有著更多的應用。對於每一個人來說,理解一些強化學習有助於我們更安全的構建和利用機器學習系統。在下一部分中作者將要從優化控制的角度更為詳細的闡釋強化學習。
強化學習最為迷人的地方在於將機器學習和控制有機地結合到了一起,但人們對於智慧體與環境的互動還知之甚少。機器學習和控制在各自的領域的應用有很大的差別,控制是在一個具體的環境中設計出精密複雜行為的理論,而機器學習卻是在沒有預先模型的情況下從資料中進行復雜的預測任務。控制理論的核心在於連線輸入和輸出的動力學系統。這一系統的初始狀態在輸入和環境條件的作用下不斷轉換,而輸出則是輸入和對應狀態的函式。如果在沒有輸入的情況下,我們要預測未來的輸出只需要知道系統所處的狀態即可。
我們利用牛頓定律來作為例子理解控制的過程。如果我們希望將四旋翼懸浮在空中並從一米上升到2m的位置,那麼我們首先需要增加螺旋槳的轉速以獲取更大的升力。這時候螺旋槳轉速是輸入1,它需要與輸入2重力進行相互作用。那麼四旋翼無人機的動力學就要滿足牛頓定律:加速度的大小與受外力成正比,而這裡的外力則是升力與重力之差。同時加速度的大小還與四旋翼飛行器的質量成反比。同時速度等於初速度加上加速與加速的時間,最終的位置則需要滿足初始位置加上速度與運動時間的乘積。通過這些公式我們就可以計算出運動到目標位置所需的升力和轉速以及作用的時間了。這時候系統的狀態就可以表示為位置和速度這一對參量。
這時候可以將這一動力學系統表示為一個差分方程:
其中f表示狀態轉移方程,主要受到當前狀態、當前輸入和誤差的影。et可以是隨機噪聲也可以視為模型的系統誤差。
優化控制的目的是儘可能的最小化或者最大化控制目標。我們假設每一時刻我們都能從當前的輸入和狀態中獲取到目前一些獎勵,而我們需要的是最大化這些獎勵。我們可以將這一過程表現為下面的形式:
上式表示我們需要特定的控制序列ut來最大化0~N時間內的獎勵,而這取決於動力學系統的狀態轉移規則f。假設我們是控制工程師,那麼我們現在需要做的就是為這一優化控制問題建立模型,並尋找最優解,然後問題就迎刃而解了!有很多的控制問題可以按照這樣的方式解決,其中最早的求解演算法便是反向傳播演算法。
另一個重要的例子是馬爾科夫決策過程(MDP),這時候xt變成了離散的輸入值,u(t)則是離散的控制,x(t+1)的概率分佈則由x(t)和u(t)共同決定。在馬爾可夫過程中,可以將上述變數表示為概率分佈,同時可以利用動態程式設計的方法求解這一問題。
講了這麼多,現在是我們把學習引入到控制過程中的時候了。如果我們對於f一無所知那麼我們將如何建模如何解決問題呢?這就是機器學習可以大顯身手的地方了!
我們可能不知道螺旋槳在給定電壓下的推力,我們該如何建模呢?首先我們應該利用實驗去觀察在不同的輸入下一個動力學模型是否適合這個系統,隨後將這一模型轉換為一個優化問題。
對於更為複雜的系統,我們不可能寫出一個緊湊的引數化模型。一種可能的方法就是不去管模型而是嘗試在x(t)的不同測量來不斷增加獎勵,這就引入了”規範分析“領域的強化學習。這樣的規範分析不僅利用從頭開始建立控制系統,同時也適用時變模型的建模和分析。需要強調的是,這是一種純粹依賴於反饋的控制方法,而不依賴於傳統的控制理論。
其中關鍵的不同在於我們對於一個動力學系統的瞭解程度有多麼的深刻,從而才能建立優化的控制過程?使系統達到高水平控制效能的優化過程是什麼(重複與監測)?
這兩個問題構成了強化學習的對於經典控制問題的核心。
強化學習入門之旅下一站:
The Linearization Principle >>http://www.argmin.net/2018/02/05/linearization/
The Linear Quadratic Regulator>>http://www.argmin.net/2018/02/08/lqr/
人工智慧賽博物理作業系統
AI-CPS OS
“人工智慧賽博物理作業系統”(新一代技術+商業作業系統“AI-CPS OS”:雲端計算+大資料+物聯網+區塊鏈+人工智慧)分支用來的今天,企業領導者必須瞭解如何將“技術”全面滲入整個公司、產品等“商業”場景中,利用AI-CPS OS形成數字化+智慧化力量,實現行業的重新佈局、企業的重新構建和自我的煥然新生。
AI-CPS OS的真正價值並不來自構成技術或功能,而是要以一種傳遞獨特競爭優勢的方式將自動化+資訊化、智造+產品+服務和資料+分析一體化,這種整合方式能夠釋放新的業務和運營模式。如果不能實現跨功能的更大規模融合,沒有顛覆現狀的意願,這些將不可能實現。
領導者無法依靠某種單一戰略方法來應對多維度的數字化變革。面對新一代技術+商業作業系統AI-CPS OS顛覆性的數字化+智慧化力量,領導者必須在行業、企業與個人這三個層面都保持領先地位:
重新行業佈局:你的世界觀要怎樣改變才算足夠?你必須對行業典範進行怎樣的反思?
重新構建企業:你的企業需要做出什麼樣的變化?你準備如何重新定義你的公司?
重新打造自己:你需要成為怎樣的人?要重塑自己並在數字化+智慧化時代保有領先地位,你必須如何去做?
AI-CPS OS是數字化智慧化創新平臺,設計思路是將大資料、物聯網、區塊鏈和人工智慧等無縫整合在雲端,可以幫助企業將創新成果融入自身業務體系,實現各個前沿技術在雲端的優勢協同。AI-CPS OS形成的數字化+智慧化力量與行業、企業及個人三個層面的交叉,形成了領導力模式,使數字化融入到領導者所在企業與領導方式的核心位置:
精細:這種力量能夠使人在更加真實、細緻的層面觀察與感知現實世界和數字化世界正在發生的一切,進而理解和更加精細地進行產品個性化控制、微觀業務場景事件和結果控制。
智慧:模型隨著時間(資料)的變化而變化,整個系統就具備了智慧(自學習)的能力。
高效:企業需要建立實時或者準實時的資料採集傳輸、模型預測和響應決策能力,這樣智慧就從批量性、階段性的行為變成一個可以實時觸達的行為。
不確定性:數字化變更顛覆和改變了領導者曾經仰仗的思維方式、結構和實踐經驗,其結果就是形成了複合不確定性這種顛覆性力量。主要的不確定性蘊含於三個領域:技術、文化、制度。
邊界模糊:數字世界與現實世界的不斷融合成CPS不僅讓人們所知行業的核心產品、經濟學定理和可能性都產生了變化,還模糊了不同行業間的界限。這種效應正在向生態系統、企業、客戶、產品快速蔓延。
AI-CPS OS形成的數字化+智慧化力量通過三個方式激發經濟增長:
創造虛擬勞動力,承擔需要適應性和敏捷性的複雜任務,即“智慧自動化”,以區別於傳統的自動化解決方案;
對現有勞動力和實物資產進行有利的補充和提升,提高資本效率;
人工智慧的普及,將推動多行業的相關創新,開闢嶄新的經濟增長空間。
給決策制定者和商業領袖的建議:
超越自動化,開啟新創新模式:利用具有自主學習和自我控制能力的動態機器智慧,為企業創造新商機;
迎接新一代資訊科技,迎接人工智慧:無縫整合人類智慧與機器智慧,重新
評估未來的知識和技能型別;
制定道德規範:切實為人工智慧生態系統制定道德準則,並在智慧機器的開
發過程中確定更加明晰的標準和最佳實踐;
重視再分配效應:對人工智慧可能帶來的衝擊做好準備,制定戰略幫助面臨
較高失業風險的人群;
開發數字化+智慧化企業所需新能力:員工團隊需要積極掌握判斷、溝通及想象力和創造力等人類所特有的重要能力。對於中國企業來說,創造兼具包容性和多樣性的文化也非常重要。
子曰:“君子和而不同,小人同而不和。” 《論語·子路》雲端計算、大資料、物聯網、區塊鏈和 人工智慧,像君子一般融合,一起體現科技就是生產力。
如果說上一次哥倫布地理大發現,擴充的是人類的物理空間。那麼這一次地理大發現,擴充的就是人們的數字空間。在數學空間,建立新的商業文明,從而發現新的創富模式,為人類社會帶來新的財富空間。雲端計算,大資料、物聯網和區塊鏈,是進入這個數字空間的船,而人工智慧就是那船上的帆,哥倫布之帆!
新一代技術+商業的人工智慧賽博物理作業系統AI-CPS OS作為新一輪產業變革的核心驅動力,將進一步釋放歷次科技革命和產業變革積蓄的巨大能量,並創造新的強大引擎。重構生產、分配、交換、消費等經濟活動各環節,形成從巨集觀到微觀各領域的智慧化新需求,催生新技術、新產品、新產業、新業態、新模式。引發經濟結構重大變革,深刻改變人類生產生活方式和思維模式,實現社會生產力的整體躍升。
產業智慧官 AI-CPS
用“人工智慧賽博物理作業系統”(新一代技術+商業作業系統“AI-CPS OS”:雲端計算+大資料+物聯網+區塊鏈+人工智慧),在場景中構建狀態感知-實時分析-自主決策-精準執行-學習提升的認知計算和機器智慧;實現產業轉型升級、DT驅動業務、價值創新創造的產業互聯生態鏈。
長按上方二維碼關注微信公眾號: AI-CPS,更多資訊回覆:
新技術:“雲端計算”、“大資料”、“物聯網”、“區塊鏈”、“人工智慧”;新產業:“智慧製造”、“智慧金融”、“智慧零售”、“智慧駕駛”、“智慧城市”;新模式:“財富空間”、“工業網際網路”、“資料科學家”、“賽博物理系統CPS”、“供應鏈金融”。
官方網站:AI-CPS.NET
本文系“產業智慧官”(公眾號ID:AI-CPS)收集整理,轉載請註明出處!
版權宣告:由產業智慧官(公眾號ID:AI-CPS)推薦的文章,除非確實無法確認,我們都會註明作者和來源。部分文章推送時未能與原作者取得聯絡。若涉及版權問題,煩請原作者聯絡我們,與您共同協商解決。聯絡、投稿郵箱:erp_vip@hotmail.com
相關文章
- 再探強化學習強化學習
- 強化學習-簡介強化學習
- 強化學習-學習筆記13 | 多智慧體強化學習強化學習筆記智慧體
- 強化學習強化學習
- 強化學習10——迭代學習強化學習
- 【強化學習篇】--強化學習案例詳解一強化學習
- 【強化學習】強化學習術語表(A-Z)強化學習
- 深度強化學習day01初探強化學習強化學習
- 強化學習-學習筆記3 | 策略學習強化學習筆記
- matplotlib 強化學習強化學習
- 【強化學習篇】--強化學習從初識到應用強化學習
- 強化學習-學習筆記2 | 價值學習強化學習筆記
- 深度學習+深度強化學習+遷移學習【研修】深度學習強化學習遷移學習
- 強化學習系列(1):簡介強化學習
- 強化學習-學習筆記5 | AlphaGo強化學習筆記Go
- 深度學習及深度強化學習研修深度學習強化學習
- 強化學習分類強化學習
- 強化學習筆記強化學習筆記
- 強化學習之CartPole強化學習
- 強化學習-學習筆記12 | Dueling Network強化學習筆記
- 深度學習及深度強化學習應用深度學習強化學習
- 關於強化學習、深度學習deeplearning研修強化學習深度學習
- 【強化學習】強化學習的基本概念與程式碼實現強化學習
- 強化學習-學習筆記15 | 連續控制強化學習筆記
- 強化學習-學習筆記8 | Q-learning強化學習筆記
- 強化學習-學習筆記10 | 經驗回放強化學習筆記
- 強化學習-學習筆記1 | 基礎概念強化學習筆記
- 強化學習-學習筆記4 | Actor-Critic強化學習筆記
- 深度學習、強化學習核心技術實戰深度學習強化學習
- 強化學習-task01強化學習
- 強化學習入門 -KDnuggets強化學習
- 強化學習(十七) 基於模型的強化學習與Dyna演算法框架強化學習模型演算法框架
- 機器學習、深度學習、強化學習課程超級大列表!機器學習深度學習強化學習
- 如何解決稀疏獎勵下的強化學習?強化學習
- 麻省理工學院Lex Fridman:強化學習簡介強化學習
- 強化學習(十一) Prioritized Replay DQN強化學習Zed
- 強化學習(十四) Actor-Critic強化學習
- 強化學習(十)Double DQN (DDQN)強化學習
- 《深度強化學習》手稿開放了!強化學習