【強化學習】不用地圖如何導航？DeepMind提出新型雙路徑強化學習「智慧體」架構

產業智慧官發表於2018-04-09

原文網址 : https://blog.csdn.net/np4rhi455vg29y2/article/details/79861424

640?wx_fmt=png&wxfrom=5&wx_lazy=1

來源：deepmind、arXiv

作者：Piotr Mirowski、Matthew Koichi Grimes、Mateusz Malinowski、Karl Moritz Hermann、Keith Anderson、Denis Teplyashin、Karen Simonyan、Koray Kavukcuoglu、Andrew Zisserman、Raia Hadsell

「雷克世界」編譯：嗯~是阿童木呀、KABUDA、EVA

摘要：最近，DeepMind提出了一種全新的、雙路徑智慧體結構，該結構採用端到端的強化學習進行訓練，可處理城市級規模的真實視覺導航任務。

一直以來，導航都是一項重要的認知任務，它使人類和動物在一個複雜的世界裡，在沒有地圖的情況下，能夠穿越遙遠的距離。可以這樣說，能夠在非結構化環境中導航是智慧生物的基本能力，因此這對於人工智慧的研究和開發具有根本性的作用。最近，DeepMind提出了一種全新的、雙路徑智慧體結構，該結構採用端到端的強化學習進行訓練，可處理城市級規模的真實視覺導航任務。

在你童年生活中，你是如何學會對你所在的社群進行導航的？你是如何導航去你的朋友家、去學校或者去雜貨店的？可能沒有地圖，只要記住街道的視覺外觀，就可以沿著路轉彎。當你逐漸探索了你所在的社群之時，你變得更加自信了，掌握了自己的去向，並學習了新的、越來越複雜的路徑。你可能短暫地迷失過方向，但又因為地標的出現，或者甚至可能是通過看太陽找到一個即時指南針，從而再次找到了你的路線。

導航是一項重要的認知任務，它使人類和動物在一個複雜的世界裡，在沒有地圖的情況下，能夠穿越遙遠的距離。這樣的遠端導航可以同時支援自我定位（“我在這裡”）和目標表徵（“我要去那裡”）。

在《學習在不使用地圖的情況下在城市中進行導航》這篇論文中，我們呈現了一種互動的導航環境，它使用了來自谷歌街景（Google Street View）的第一人稱視角照片，並將該環境進行遊戲化以訓練人工智慧。根據街景圖片的標準，人臉和車輛牌照都被模糊了且無法辨認。我們建立了一個基於神經網路的人工智慧體，它可以利用視覺資訊（來自街景影像的畫素）來學習如何在多個城市中進行導航。請注意，這項研究是關於廣義的導航的，而不是駕駛；我們沒有使用交通訊息，也沒有試圖對車輛控制進行建模。

640?wx_fmt=png

我們的智慧體在不訪問該環境地圖的情況下，在外觀上多樣化的環境中進行導航

當智慧體到達目標目的地（例如，特定的一對緯度和經度座標）時，它就會得到獎勵。它就像一個快遞員，有著無止境的交付任務，但它沒有地圖。隨著時間的推移，人工智慧體學會以這種方式跨越整個城市。我們還證明了，我們的智慧體可以在多個城市中學習這項任務，然後魯棒性地適應一個新的城市。

640?wx_fmt=gif

在巴黎進行訓練的智慧體的定格拍攝。這些影像與城市的地圖疊加在一起，顯示出目標位置（紅色）以及智慧體位置和視野（綠色）。注意，智慧體並沒有看到地圖，只有目標位置的經緯度座標。

學習在不需要構建地圖的情況下進行導航

我們背離了那種依賴於顯式測繪和探索的傳統方法（就像試圖將自己定位並同時繪製地圖的那種製圖師）。與此相反，我們的方法是學習人類過去常常使用的那種方法進行導航——沒有地圖、GPS定位或者其他的輔助手段，只使用視覺觀察。我們構建了一個神經網路智慧體，它輸入從環境中觀察到的影像，並預測在該環境中它應該採取的下一步行動。我們使用深度強化學習來對它進行端到端的訓練，類似於最近的一些關於學習如何在複雜的3D迷宮中進行導航的研究，以及在玩遊戲中使用引入了無監督輔助任務的強化學習的研究。與那些在小規模模擬迷宮環境中進行的研究不同，我們利用了城市規模的真實世界資料，包括複雜的十字路口、人行道、隧道，以及橫跨倫敦、巴黎和紐約的各種拓撲結構。此外，我們使用的方法還支援特定城市的學習和優化，以及泛化的、可遷移的導航行為。

可以遷移到新城市的模組化神經網路架構

我們的智慧體中的神經網路在由三部分組成:1)一個能夠處理影像並提取視覺特徵的卷積網路；2)一個特定於地區的迴圈神經網路，它隱式任務是負責記憶環境以及學習“這裡”（智慧體的當前位置）和“那裡”（目標的位置）的表徵；3) 不因地區改變的迴圈網路，它生產出智慧體行為的導航策略。特定於地區的模組被設計為可互換的，正如其名稱所示，這個模組對於智慧體所導航的每個城市來說都是獨一無二的，但視覺模組和策略模組是可以不因地區改變的。

640?wx_fmt=png

將城市導航（CityNav）架構（a）、多城市導航（MultiCityNav）架構與每個城市的特定地區路徑（b）作比較，以及對將智慧體調整到新城市時的訓練和遷移過程（c）作出說明。

就像在谷歌街景介面中一樣，智慧體可以在適當的位置進行旋轉，或者在可能的情況下前進到下一個全景圖。與谷歌地圖和街景環境不同的是，該智慧體沒有看到小箭頭、區域性地圖或全域性地圖，也沒有看到著名的小黃人（Pegman）：它需要學習區分開放的道路和人行道。在現實世界中，目標目的地可能在幾公里之外，並需要智慧體跨過數百幅全景圖才能到達目的地。

我們證明了，我們所提出的方法可以提供一種將知識遷移到新城市的機制。和人類一樣，當我們的智慧體訪問一個新城市時，我們希望它必須學習一套新的地標，但不需要重新學習它的視覺表徵或它的行為（例如，沿著街道向前走，或者在十字路口轉彎）。因此，我們使用了多城市（MultiCity）架構，首先在許多城市進行了訓練，然後我們凍結了策略網路和視覺的卷積網路，並且在一個新城市中只有一條特定於地區的路徑。這種方法使智慧體能夠獲得新的知識，而不會忘記它已經學過的知識，這與漸進式神經網路架構（progressive neural networks architecture.）類似。

640?wx_fmt=png

在該研究中所使用的曼哈頓的五個區域

研究導航是研究和發展人工智慧的基礎，嘗試在人工智慧體中複製導航也能幫助科學家瞭解其生物學基礎。

論文簡述

640?wx_fmt=png

可以這樣說，能夠在非結構化環境中導航是智慧生物的基本能力，因此這對於人工智慧的研究和開發具有根本性的作用。遠端導航是一項複雜的認知任務，它依賴於開發一個空間的內部表徵，以可識別的地標和具有魯棒性的視覺處理為基礎，可同時支援連續的自我定位（“我在這裡”）和目標表示（“我將去那裡”）。

基於最近進行的將深度強化學習應用於迷宮導航問題的研究，我們提出了一種可應用於城市規模的端到端深度強化學習方法。認識到成功的導航依賴於通用策略與特定於地區的知識的整合，我們提出了一種雙路徑體系架構，可以將特定地區的特徵封裝起來，同時仍然能夠遷移到多個城市。

我們展示了一個互動式導航環境，它使用Google StreetView作為其照片內容和全球範圍性的覆蓋範圍，並且證明我們的學習方法使得智慧體能夠學習在多個城市進行導航，並且能夠穿過可能在數公里之外的目標目的地。

一直以來，關於導航這一主題吸引了各種研究學科和技術領域科學家們的關注，從希望破解網格程式碼和位置細胞（place cells）的神經科學家角度來看，它一度成為研究的主題；同時對於希望構建可以到達特定目的地的移動機器人研究來說，它也是機器人研究的一個基本方面。

大多數演算法都涉及在探索階段構建顯式對映，然後通過該表徵進行規劃和行動。在這項研究中，我們試圖通過提出一種新方法並展示其在大規模實際環境中的效能，從而挑戰端到端深度強化學習的導航極限。正如人類可以不依賴地圖、GPS定位或其他輔助工具而學習在城市中進行導航一樣，我們的目標是證明神經網路智慧體可以僅通過使用視覺觀察便可橫穿整個城市。

為了實現這一目標，我們設計了一個互動式環境，使用Google StreetView中的影像和基本連線資訊，並提出了一種可在環境中導航的雙路徑智慧體體系結構（見下圖）。

640?wx_fmt=png

我們的環境根據StreetView的實際場所構建的。該圖顯示了紐約市（時代廣場、中央公園）和倫敦（聖保羅大教堂）的不同景觀和相應的區域性地圖。綠色圓錐表示智慧體的位置和方向。

通過使用可以從任務獎勵中進行學習的深度強化學習方法（例如，導航到目的地），在某些領域內，學習直接通過視覺輸入進行導航已被證明是可能的。最近的研究已經證明，強化學習智慧體可以學習對家庭場景（Zhu等人於2017年、Wu等人於2018年提出）、迷宮（Mirowski等人於2016年提出）和3D遊戲（例如Lample和Chaplot於2017年提出）進行導航。

儘管取得了成功，但眾所周知，深度強化學習方法資料低效且對環境干擾異常敏感，並且在遊戲和模擬環境中的成功要遠遠高於其在實際環境中的應用。因此，它們不可以用於基於真實影像的大規模視覺導航，從而它也是我們此次研究的主題。

我們的貢獻

本文的主要貢獻是提出了一種全新的、雙路徑智慧體結構，該結構採用端到端的強化學習進行訓練，可處理城市級規模的真實視覺導航任務。我們提出的智慧體展示了目標依賴性學習，這意味著策略和價值函式必須學會適應一系列作為輸入而給定的目標。

此外，該方法具有一種迴圈神經結構，即支援特定語言環境的學習，也支援通用的、可遷移的導航行為。平衡這兩項能力是通過將迴圈神經路徑從智慧體的通用導航策略中分離出來實現的。該路徑解決了兩點需求。首先，它接收並解釋了環境給出的當前目標。其次，其次，它封裝並記憶了單個城市地區的特徵和結構。因此，我們不使用地圖或外部儲存器，而是提出了具有兩條迴圈路徑的體系架構，這可以有效解決單個城市中具有挑戰性的導航任務，並僅通過訓練新的特定語言環境路徑即可遷移到新的城市或地區。

我們在一個新的強化學習互動環境中演示了所提出的智慧體架構，該環境將現實世界的影像作為智慧體觀測，具有全球規模性和多樣性，以及聚於建立在Google StreetView之上的現實世界的基礎內容。在該環境中，我們研發了一項遍歷任務，要求智慧體在倫敦、巴黎和紐約市內完成從一點到另一點的導航。我們任務的現實世界類比是，在一個給定的城市中，信使從一點A出發（該點是任意選定的），到指定的地點B，這一過程中沒有給出該區域的地圖，也沒有給出從A到B的路線，更沒有給出各點的具體方位。

導航是一項重要的認知任務，它使人類和動物能夠在沒有地圖的情況下穿越複雜的世界。我們提出了一種解決城市級現實環境中任務的深度強化學習導航方法，引入並分析了一項新的信使任務，同時，我們還提出了一個多城市神經網路智慧體架構，演示了該如何將其遷移到新的新環境。

原文連結：https://deepmind.com/blog/learning-to-navigate-cities-without-a-map/

論文連結：https://arxiv.org/pdf/1804.00168.pdf

640?wx_fmt=png

人工智慧賽博物理作業系統

AI-CPS OS

“人工智慧賽博物理作業系統”（新一代技術+商業作業系統“AI-CPS OS”：雲端計算+大資料+物聯網+區塊鏈+人工智慧）分支用來的今天，企業領導者必須瞭解如何將“技術”全面滲入整個公司、產品等“商業”場景中，利用AI-CPS OS形成數字化+智慧化力量，實現行業的重新佈局、企業的重新構建和自我的煥然新生。

AI-CPS OS的真正價值並不來自構成技術或功能，而是要以一種傳遞獨特競爭優勢的方式將自動化+資訊化、智造+產品+服務和資料+分析一體化，這種整合方式能夠釋放新的業務和運營模式。如果不能實現跨功能的更大規模融合，沒有顛覆現狀的意願，這些將不可能實現。

領導者無法依靠某種單一戰略方法來應對多維度的數字化變革。面對新一代技術+商業作業系統AI-CPS OS顛覆性的數字化+智慧化力量，領導者必須在行業、企業與個人這三個層面都保持領先地位：

重新行業佈局：你的世界觀要怎樣改變才算足夠？你必須對行業典範進行怎樣的反思？
重新構建企業：你的企業需要做出什麼樣的變化？你準備如何重新定義你的公司？
重新打造自己：你需要成為怎樣的人？要重塑自己並在數字化+智慧化時代保有領先地位，你必須如何去做？

AI-CPS OS是數字化智慧化創新平臺，設計思路是將大資料、物聯網、區塊鏈和人工智慧等無縫整合在雲端，可以幫助企業將創新成果融入自身業務體系，實現各個前沿技術在雲端的優勢協同。AI-CPS OS形成的數字化+智慧化力量與行業、企業及個人三個層面的交叉，形成了領導力模式，使數字化融入到領導者所在企業與領導方式的核心位置：

精細：這種力量能夠使人在更加真實、細緻的層面觀察與感知現實世界和數字化世界正在發生的一切，進而理解和更加精細地進行產品個性化控制、微觀業務場景事件和結果控制。
智慧：模型隨著時間（資料）的變化而變化，整個系統就具備了智慧（自學習）的能力。
高效：企業需要建立實時或者準實時的資料採集傳輸、模型預測和響應決策能力，這樣智慧就從批量性、階段性的行為變成一個可以實時觸達的行為。
不確定性：數字化變更顛覆和改變了領導者曾經仰仗的思維方式、結構和實踐經驗，其結果就是形成了複合不確定性這種顛覆性力量。主要的不確定性蘊含於三個領域：技術、文化、制度。
邊界模糊：數字世界與現實世界的不斷融合成CPS不僅讓人們所知行業的核心產品、經濟學定理和可能性都產生了變化，還模糊了不同行業間的界限。這種效應正在向生態系統、企業、客戶、產品快速蔓延。

AI-CPS OS形成的數字化+智慧化力量通過三個方式激發經濟增長：

創造虛擬勞動力，承擔需要適應性和敏捷性的複雜任務，即“智慧自動化”，以區別於傳統的自動化解決方案；
對現有勞動力和實物資產進行有利的補充和提升，提高資本效率；
人工智慧的普及，將推動多行業的相關創新，開闢嶄新的經濟增長空間。

給決策制定者和商業領袖的建議：

超越自動化，開啟新創新模式：利用具有自主學習和自我控制能力的動態機器智慧，為企業創造新商機；
迎接新一代資訊科技，迎接人工智慧：無縫整合人類智慧與機器智慧，重新
評估未來的知識和技能型別；
制定道德規範：切實為人工智慧生態系統制定道德準則，並在智慧機器的開
發過程中確定更加明晰的標準和最佳實踐；
重視再分配效應：對人工智慧可能帶來的衝擊做好準備，制定戰略幫助面臨
較高失業風險的人群；
開發數字化+智慧化企業所需新能力：員工團隊需要積極掌握判斷、溝通及想象力和創造力等人類所特有的重要能力。對於中國企業來說，創造兼具包容性和多樣性的文化也非常重要。

子曰：“君子和而不同，小人同而不和。” 《論語·子路》雲端計算、大資料、物聯網、區塊鏈和人工智慧，像君子一般融合，一起體現科技就是生產力。

如果說上一次哥倫布地理大發現，擴充的是人類的物理空間。那麼這一次地理大發現，擴充的就是人們的數字空間。在數學空間，建立新的商業文明，從而發現新的創富模式，為人類社會帶來新的財富空間。雲端計算，大資料、物聯網和區塊鏈，是進入這個數字空間的船，而人工智慧就是那船上的帆，哥倫布之帆！

新一代技術+商業的人工智慧賽博物理作業系統AI-CPS OS作為新一輪產業變革的核心驅動力，將進一步釋放歷次科技革命和產業變革積蓄的巨大能量，並創造新的強大引擎。重構生產、分配、交換、消費等經濟活動各環節，形成從巨集觀到微觀各領域的智慧化新需求，催生新技術、新產品、新產業、新業態、新模式。引發經濟結構重大變革，深刻改變人類生產生活方式和思維模式，實現社會生產力的整體躍升。

產業智慧官 AI-CPS

用“人工智慧賽博物理作業系統”（新一代技術+商業作業系統“AI-CPS OS”：雲端計算+大資料+物聯網+區塊鏈+人工智慧），在場景中構建狀態感知-實時分析-自主決策-精準執行-學習提升的認知計算和機器智慧；實現產業轉型升級、DT驅動業務、價值創新創造的產業互聯生態鏈。

640?wx_fmt=png

長按上方二維碼關注微信公眾號： AI-CPS，更多資訊回覆：

新技術：“雲端計算”、“大資料”、“物聯網”、“區塊鏈”、“人工智慧”；新產業：“智慧製造”、“智慧金融”、“智慧零售”、“智慧駕駛”、“智慧城市”；新模式：“財富空間”、“工業網際網路”、“資料科學家”、“賽博物理系統CPS”、“供應鏈金融”。

官方網站：AI-CPS.NET

本文系“產業智慧官”（公眾號ID：AI-CPS）收集整理，轉載請註明出處！

版權宣告：由產業智慧官（公眾號ID：AI-CPS）推薦的文章，除非確實無法確認，我們都會註明作者和來源。部分文章推送時未能與原作者取得聯絡。若涉及版權問題，煩請原作者聯絡我們，與您共同協商解決。聯絡、投稿郵箱：erp_vip@hotmail.com

誰說導航一定要用地圖？谷歌DeepMind的強化學習模型靠街景認路
2018-04-04
地圖谷歌強化學習模型
強化學習-學習筆記13 | 多智慧體強化學習
2022-07-10
強化學習筆記智慧體
DeepMind開源強化學習庫TRFL
2018-10-18
強化學習
如何在TensorFlow 2.0中構建強化學習智慧體
2019-01-21
強化學習智慧體
強化學習
2020-12-05
強化學習
【強化學習篇】--強化學習案例詳解一
2018-06-30
強化學習
【強化學習】強化學習術語表（A-Z）
2020-10-25
強化學習
深度強化學習day01初探強化學習
2019-06-27
強化學習
DeepMind綜述深度強化學習中的快與慢，智慧體應該像人一樣學習
2019-05-03
強化學習智慧體
人工智慧 (12) 強化學習
2019-12-23
人工智慧強化學習
強化學習10——迭代學習
2020-10-26
強化學習
matplotlib 強化學習
2020-06-21
強化學習
【強化學習篇】--強化學習從初識到應用
2018-06-30
強化學習
Anthropic挖走DeepMind強化學習大牛、AlphaGo核心作者Julian Schrittwieser
2024-10-29
強化學習Go
谷歌DeepMind—運用深度強化學習為雙足機器人學習敏捷足球技能 Movies
2024-12-05
谷歌強化學習機器人敏捷
DeepMind用元強化學習框架探索多巴胺在學習過程中的作用
2019-02-21
強化學習框架
強化學習-學習筆記3 | 策略學習
2022-07-05
強化學習筆記
再探強化學習
2024-03-14
強化學習
強化學習分類
2024-08-12
強化學習
強化學習筆記
2023-04-07
強化學習筆記
強化學習之CartPole
2021-06-14
強化學習
強化學習-簡介
2021-01-20
強化學習
【強化學習】強化學習的基本概念與程式碼實現
2018-03-21
強化學習
強化學習-學習筆記5 | AlphaGo
2022-07-06
強化學習筆記Go
深度學習及深度強化學習研修
2021-01-04
深度學習強化學習
ICLR 2020 多智慧體強化學習論文總結
2020-09-29
ICLR智慧體強化學習
DeepMind釋出神經網路、強化學習庫，網友：推動JAX發展
2020-02-23
神經網路強化學習
強化學習-學習筆記2 | 價值學習
2022-07-04
強化學習筆記
深度學習+深度強化學習+遷移學習【研修】
2021-03-25
深度學習強化學習遷移學習
乾貨｜淺談強化學習的方法及學習路線
2018-04-03
強化學習
強化學習-學習筆記12 | Dueling Network
2022-07-09
強化學習筆記
深度學習及深度強化學習應用
2021-01-04
深度學習強化學習
關於強化學習、深度學習deeplearning研修
2020-11-25
強化學習深度學習
強化學習-task01
2020-10-20
強化學習
強化學習入門 -KDnuggets
2021-04-28
強化學習
強化學習(十七) 基於模型的強化學習與Dyna演算法框架
2019-02-15
強化學習模型演算法框架
強化學習-學習筆記7 | Sarsa演算法原理與推導
2022-07-07
強化學習筆記演算法
強化學習-學習筆記15 | 連續控制
2022-07-14
強化學習筆記

【強化學習】不用地圖如何導航？DeepMind提出新型雙路徑強化學習「智慧體」架構

相關文章