2022年數字資訊化培訓專案系列

關於舉辦“深度強化學習核心技術開發與應用研修班”通知（）

各企、事業單位：

隨著科技的快速發展,人工智慧儼然成了當今社會的關注焦點。而在人工智慧的發展上,深度學習、強化學習、遷移學習等成為了科學界、工業界研究和應用的熱點。在實際研究和應用過程當中，研究人員逐漸發現了深度學習單獨應用的缺點，如沒有決策能力，不可推理等。而深度強化學習，作為一種嶄新的機器學習方法,同時具有感知能力和決策能力，它是深度學習與強化學習的結合，二者的結合涵蓋眾多演算法、規則、框架,並廣泛應用於機器人、無人機、無人車、無人艇、兵棋推演、自動駕駛、能源分配、編隊控制、航跡規劃、路由規劃等眾多領域，具有極高的研究與應用價值。

為積極響應科研及工作人員需求，根據國務院《國家中長期人才發展規劃綱要（2010-2020年）》和人社部《專業技術人才知識更新工程實施方案（2010-2020年）》檔案精神，中國管理科學研究院現代教育研究所（）聯合北京龍騰亞太教育諮詢有限公司特舉辦“深度強化學習核心技術開發與應用研修班”。本次培訓採用全實戰培訓模式。

主辦單位：中國管理科學研究院現代教育研究所

承辦單位：北京龍騰亞太教育諮詢有限公司、北京新鼎聚成文化傳媒有限公司

注：由具體承辦單位開具票證。

一、培訓專家:

中國科學院計算技術研究所、清華大學、北京理工大學等科研機構和大學的高階專家，擁有豐富的科研及工程技術經驗，長期從事人工智慧、機器學習、深度學習、大資料分析等領域的教學與研究工作。

二、參會物件：

各省市、自治區從事人工智慧、機器學習、計算機視覺、自然語言處理、無人機、無人艇、無人車、機器人、智慧體、多智慧體、兵棋推演、自動駕駛、能源分配、編隊控制、航跡規劃、路由規劃等領域相關的企事業單位技術骨幹、科研院所研究人員和大專院校相關專業教學人員及在校研究生等相關人員，以及強化學習、人工智慧廣大愛好者。

三、培訓目標：

1、瞭解強化學習發展。

2、掌握單智慧體深度強化學習。

3、掌握多智慧體深度強化學習。

4、掌握多工深度強化學習。

5、掌握強化學習應用領域Gym Retro遊戲平臺、機器人控制、計算機視覺、自然語言處理。

6、實現Gym、Ray模擬環境。

7、實際體驗Q Learning實驗、DQN實驗、DDPG實驗。

四、費用標準：

1、4580元/人（含報名費、培訓費、資料費、證照費）。

2、培訓費由組織培訓班的施教機構負責收取並提供培訓票證。

3、報名成功後於一週內辦理匯款手續。

4、報名5人以上可享受9折優惠。

5、參加線上培訓學員可享受影片錄播回放權益，及本人再次免費參加線下學習權益。

五、頒發證照：

參加相關培訓並透過考核的學員，由中國管理科學研究院現代教育研究所頒發《深度強化學習開發與應用工程師》（高階）崗位認證證照，可透過官方網站查詢（），該證照可作為有關單位專業技術人員能力評價、考核和任職的重要依據。

注：請學員將電子版彩照（大於20KB，紅藍底皆可）、身份證影印件和學歷證明覆印件傳送至2374914377@qq.com

六、注意事項

1、指定報名郵箱：2374914377@qq.com

2、報名成功後，會務組在上課前兩天發放上課所需所有材料。

3、學員需自備電腦一臺，配置win10、64位系統、8G記憶體、100G硬碟。

附件1：具體課程安排

時間安排大綱具體內容實操案例

三天關鍵點 1.強化學習的發展歷程

2.馬爾可夫決策過程

3.動態規劃

4.無模型預測學習

5.無模型控制學習

6.價值函式逼近

7.策略梯度方法

8.深度強化學習-DQN演算法系列

9.深度策略梯度-DDPG,PPO等

第一天

9:00-12:00

14:00-17:00 一、強化學習概述 1.強化學習介紹 2.強化學習與其它機器學習的不同

3.強化學習發展歷史 4.強化學習典型應用

5.強化學習基本元素 6.強化學習演算法分類

二、馬爾科夫決策過程 1.馬爾可夫性 2.馬爾可夫決策過程

3.策略與價值 4.最最佳化原理

5.MDPs擴充套件

三、動態規劃 1.動態規劃 2.價值迭代

3.策略迭代 4.迭代策略評估

5.廣義策略迭代 6.維數災 1.python環境下簡單掃地機器人環境

2.價值迭代python實現

3.策略迭代python實現

4.迭代策略評估python實現

四、無模型預測學習 1.蒙特卡洛方法 2.時間差分學習

3.n-步回報 4.TD(lambda)

5.資格跡 1.蒙特卡洛方法python實現

2.時間差分方法python實現

第二天

9:00-12:00

14:00-17:00 五、無模型控制學習 1.蒙特卡洛控制 2.Sarsa

3.重要性取樣 4.Q-學習

4.Double Q學習 5.探索與利用 1. Sarsa方法python實現

2. Q學習方法python實現

3. Sarsa(lambda)方法python實現

六、價值函式逼近 1.函式逼近器 2.線性函式逼近

3.常見的特徵表示方法

4.價值迭代+離散化方法

5.Fitted Q Iteration

6.策略迭代+最小二乘

7.預測學習+隨機梯度下降法

8.控制學習+隨機梯度下降法 1. 離散化Q迭代方法python實現

2. LSPI方法python實現

七、策略梯度方法 1.基於策略的強化學習

2.有限差分策略梯度

3.解析法策略梯度

4.REINFORCE演算法

5.Actor-Critic

6.策略梯度引入基準

7.自然梯度

8.確定型Actor-Critic 1. 策略迭代方法python實現

2. actor-critic方法python實現

第三天

9:00-12:00

14:00-17:00 八、深度強化學習 1.Deep Q learning(DQN)

2.Double DQN

3.Dueling DQN

4.Prioritized Experience Replay

5.A3C/A2C

6.DDPG

7.PPO

8.SAC 1.深度強化學習訓練場-OpenAI Gym 安裝與使用

2.Pytorch安裝與使用

3.自動駕駛賽車任務

4.月球飛船降落任務

實操解析與訓練一實驗：倒立擺控制實踐

1.環境編寫 2.演算法設計 3.實驗結果

高頻問題：

如何將一個控制問題設計成馬爾可夫決策問題並使用強化學習演算法進行訓練

關鍵點：

1.基於模型的離線強化學習方法 2.基於資料的線上強化學習方法

實操解析與訓練二實驗：OpenAI Gym實踐

1.Gym安裝 2.Gym使用 3.強化學習

高頻問題：

1.如何基於Gym實現強化學習訓練與測試

關鍵點：

1.掌握馬爾可夫決策過程 2.低維輸入的強化學習方法

實操解析與訓練三實驗：月球飛船降落任務

1.DQN/Double DQN/Dueling DQN 2.PER

高頻問題：

1.深度強化學習網路訓練穩定性 2.探索與利用

關鍵點：

1.經驗回放技術的實現 2.目標網路更新

實操解析與訓練四實驗：自動駕駛賽車任務

1.連續控制任務 2.策略梯度方法DDPG/PPO

高頻問題：

1.適用於高維輸入的連續控制任務的深度強化學習方法

關鍵點：

1.掌握DDPG和PPO具體程式設計實現

2.根據實際需求，選用合理的深度強化學習方法

關注“人工智慧技術與諮詢”，更多前沿技術等著你！

深度強化學習技術開發與應用

相關文章