深度強化學習技術開發與應用
2022年數字資訊化培訓專案系列
關於舉辦“深度強化學習核心技術開發與應用研修班”通知()
各企、事業單位:
隨著科技的快速發展,人工智慧儼然成了當今社會的關注焦點。而在人工智慧的發展上,深度學習、強化學習、遷移學習等成為了科學界、工業界研究和應用的熱點。在實際研究和應用過程當中,研究人員逐漸發現了深度學習單獨應用的缺點,如沒有決策能力,不可推理等。而深度強化學習,作為一種嶄新的機器學習方法,同時具有感知能力和決策能力,它是深度學習與強化學習的結合,二者的結合涵蓋眾多演算法、規則、框架,並廣泛應用於機器人、無人機、無人車、無人艇、兵棋推演、自動駕駛、能源分配、編隊控制、航跡規劃、路由規劃等眾多領域,具有極高的研究與應用價值。
為積極響應科研及工作人員需求,根據國務院《國家中長期人才發展規劃綱要(2010-2020年)》和人社部《專業技術人才知識更新工程實施方案(2010-2020年)》檔案精神,中國管理科學研究院現代教育研究所()聯合北京龍騰亞太教育諮詢有限公司特舉辦“深度強化學習核心技術開發與應用研修班”。本次培訓採用全實戰培訓模式。
主辦單位:中國管理科學研究院現代教育研究所
承辦單位:北京龍騰亞太教育諮詢有限公司、北京新鼎聚成文化傳媒有限公司
注:由具體承辦單位開具票證。
一、培訓專家:
中國科學院計算技術研究所、清華大學、北京理工大學等科研機構和大學的高階專家,擁有豐富的科研及工程技術經驗,長期從事人工智慧、機器學習、深度學習、大資料分析等領域的教學與研究工作。
二、參會物件:
各省市、自治區從事人工智慧、機器學習、計算機視覺、自然語言處理、無人機、無人艇、無人車、機器人、智慧體、多智慧體、兵棋推演、自動駕駛、能源分配、編隊控制、航跡規劃、路由規劃等領域相關的企事業單位技術骨幹、科研院所研究人員和大專院校相關專業教學人員及在校研究生等相關人員,以及強化學習、人工智慧廣大愛好者。
三、培訓目標:
1、瞭解強化學習發展。
2、掌握單智慧體深度強化學習。
3、掌握多智慧體深度強化學習。
4、掌握多工深度強化學習。
5、掌握強化學習應用領域Gym Retro遊戲平臺、機器人控制、計算機視覺、自然語言處理。
6、實現Gym、Ray模擬環境。
7、實際體驗Q Learning實驗、DQN實驗、DDPG實驗。
四、費用標準:
1、4580元/人(含報名費、培訓費、資料費、證照費)。
2、培訓費由組織培訓班的施教機構負責收取並提供培訓 票證。
3、報名成功後於一週內辦理匯款手續。
4、報名5人以上可享受9折優惠。
5、參加線上培訓學員可享受影片錄播回放權益,及本人再次免費參加線下學習權益。
五、頒發證照:
參加相關培訓並透過考核的學員,由中國管理科學研究院現代教育研究所頒發《深度強化學習開發與應用工程師》(高階)崗位認證證照,可透過官方網站查詢(),該證照可作為有關單位專業技術人員能力評價、考核和任職的重要依據。
注:請學員將電子版彩照(大於20KB,紅藍底皆可)、身份證影印件和學歷證明覆印件傳送至2374914377@qq.com
六、注意事項
1、指定報名郵箱:2374914377@qq.com
2、報名成功後,會務組在上課前兩天發放上課所需所有材料。
3、學員需自備電腦一臺,配置win10、64位系統、8G記憶體、100G硬碟。
附件1:具體課程安排
時間安排 大 綱 具體內容 實操案例
三天 關鍵點 1.強化學習的發展歷程
2.馬爾可夫決策過程
3.動態規劃
4.無模型預測學習
5.無模型控制學習
6.價值函式逼近
7.策略梯度方法
8.深度強化學習-DQN演算法系列
9.深度策略梯度-DDPG,PPO等
第一天
9:00-12:00
14:00-17:00 一、強化學習概述 1.強化學習介紹 2.強化學習與其它機器學習的不同
3.強化學習發展歷史 4.強化學習典型應用
5.強化學習基本元素 6.強化學習演算法分類
二、馬爾科夫決策過程 1.馬爾可夫性 2.馬爾可夫決策過程
3.策略與價值 4.最最佳化原理
5.MDPs擴充套件
三、動態規劃 1.動態規劃 2.價值迭代
3.策略迭代 4.迭代策略評估
5.廣義策略迭代 6.維數災 1.python環境下簡單掃地機器人環境
2.價值迭代python實現
3.策略迭代python實現
4.迭代策略評估python實現
四、無模型預測學習 1.蒙特卡洛方法 2.時間差分學習
3.n-步回報 4.TD(lambda)
5.資格跡 1.蒙特卡洛方法python實現
2.時間差分方法python實現
第二天
9:00-12:00
14:00-17:00 五、無模型控制學習 1.蒙特卡洛控制 2.Sarsa
3.重要性取樣 4.Q-學習
4.Double Q學習 5.探索與利用 1. Sarsa方法python實現
2. Q學習方法python實現
3. Sarsa(lambda)方法python實現
六、價值函式逼近 1.函式逼近器 2.線性函式逼近
3.常見的特徵表示方法
4.價值迭代+離散化方法
5.Fitted Q Iteration
6.策略迭代+最小二乘
7.預測學習+隨機梯度下降法
8.控制學習+隨機梯度下降法 1. 離散化Q迭代方法python實現
2. LSPI方法python實現
七、策略梯度方法 1.基於策略的強化學習
2.有限差分策略梯度
3.解析法策略梯度
4.REINFORCE演算法
5.Actor-Critic
6.策略梯度引入基準
7.自然梯度
8.確定型Actor-Critic 1. 策略迭代方法python實現
2. actor-critic方法python實現
第三天
9:00-12:00
14:00-17:00 八、深度強化學習 1.Deep Q learning(DQN)
2.Double DQN
3.Dueling DQN
4.Prioritized Experience Replay
5.A3C/A2C
6.DDPG
7.PPO
8.SAC 1.深度強化學習訓練場-OpenAI Gym 安裝與使用
2.Pytorch安裝與使用
3.自動駕駛賽車任務
4.月球飛船降落任務
實操解析與訓練一 實驗:倒立擺控制實踐
1.環境編寫 2.演算法設計 3.實驗結果
高頻問題:
如何將一個控制問題設計成馬爾可夫決策問題並使用強化學習演算法進行訓練
關鍵點:
1.基於模型的離線強化學習方法 2.基於資料的線上強化學習方法
實操解析與訓練二 實驗:OpenAI Gym實踐
1.Gym安裝 2.Gym使用 3.強化學習
高頻問題:
1.如何基於Gym實現強化學習訓練與測試
關鍵點:
1.掌握馬爾可夫決策過程 2.低維輸入的強化學習方法
實操解析與訓練三 實驗:月球飛船降落任務
1.DQN/Double DQN/Dueling DQN 2.PER
高頻問題:
1.深度強化學習網路訓練穩定性 2.探索與利用
關鍵點:
1.經驗回放技術的實現 2.目標網路更新
實操解析與訓練四 實驗:自動駕駛賽車任務
1.連續控制任務 2.策略梯度方法DDPG/PPO
高頻問題:
1.適用於高維輸入的連續控制任務的深度強化學習方法
關鍵點:
1.掌握DDPG和PPO具體程式設計實現
2.根據實際需求,選用合理的深度強化學習方法
關注“人工智慧技術與諮詢”,更多前沿技術等著你!
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70020013/viewspace-2909783/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 深度學習及深度強化學習應用深度學習強化學習
- 深度學習、強化學習核心技術實戰深度學習強化學習
- 深度強化學習核心技術實戰強化學習
- 深度學習在攝影技術中的應用與發展深度學習
- 強化學習之原理與應用強化學習
- 遷移學習核心技術開發與應用研修班遷移學習
- 深度學習核心技術實踐與圖神經網路新技術應用深度學習神經網路
- 《深度強化學習》手稿開放了!強化學習
- 楊強:深度學習、強化學習、遷移學習的結合及應用進展深度學習強化學習遷移學習
- 深度學習及深度強化學習研修深度學習強化學習
- 深度學習 | 如何開發、部署 Serverless 應用?深度學習Server
- 深度學習+深度強化學習+遷移學習【研修】深度學習強化學習遷移學習
- 深度強化學習揭秘強化學習
- 深度強化學習day01初探強化學習強化學習
- 【深度學習】深度學習:技術原理、迭代路徑與侷限深度學習
- 【強化學習篇】--強化學習從初識到應用強化學習
- 深度學習的應用與實踐深度學習
- 百度NLP:強化學習之原理與應用強化學習
- 深度強化學習在時序資料壓縮中的應用強化學習
- 大規模深度學習系統技術是如何應用的深度學習
- 深度學習技術在網路入侵檢測中的應用深度學習
- 【強化學習】強化學習術語表(A-Z)強化學習
- 推薦系統中的前沿技術研究與落地:深度學習、AutoML與強化學習 | AI ProCon 2019深度學習TOML強化學習AI
- NEC開發了深度學習自動優化技術、更易於提高識別精度深度學習優化
- 深度學習技術研究會深度學習
- 深度學習技術發展趨勢淺析深度學習
- 深度學習技術在股票交易上的應用研究調查深度學習
- 後臺開發 -- 核心技術與應用實踐
- 深度學習技術實踐與圖神經網路新技術深度學習神經網路
- 關於強化學習、深度學習deeplearning研修強化學習深度學習
- 當深度學習遇上敏捷開發,會發生怎樣的“化學反應”?深度學習敏捷
- 備戰世界盃!先用深度學習與強化學習踢場 FIFA 18深度學習強化學習
- 【強化學習】變革尚未成功:深度強化學習研究的短期悲觀與長期樂觀強化學習
- DeepMind綜述深度強化學習中的快與慢,智慧體應該像人一樣學習強化學習智慧體
- 深度學習:智慧對話機器人適用場景與技術解析深度學習機器人
- 技術 | 強化學習入門以及程式碼實現強化學習
- 大資料技術於應用 視覺化圖表的開發應用大資料視覺化
- 去中心化社交軟體ktalk開發技術應用中心化