更多幹貨內容請關注微信公眾號“AI 前線”,(ID:ai-front)
自從 DeepMind 的 AlphaGo 在 2016 年戰勝人類圍棋冠軍一炮而紅之後,各大科技巨頭都機敏地嗅到了這門技術能紅,紛紛緊緊跟上了這一新趨勢和潮流。
谷歌的 DeepMind 當仁不讓可以說是引領 RL 風潮的“第一人”。該公司的 AlphaGo 讓人們重新提起了對 RL 的興趣。除此之外,強化學習系統幫助 Google 資料中心降溫系統的能源降低 40% 也是強化學習應用的另一個很好的例子。2018 年 1 月,谷歌 Google 釋出 AutoML Vision,可以全自動訓練 AI 無需寫程式碼,並在一次影像內容分類的測試中,以 82% 的準確率擊敗了編寫 AutoML 的研究人員。
OpenAI 一直是業界進行強化學習研究與應用的前沿陣地,曾開發出層次化的強化學習演算法用來解決導航問題,讓智慧體能夠快速掌握新的導航任務,給長序列動作學習帶來新的曙光。OpenAI 還擁有用於研發和比較強化學習演算法的工具包 OpenAI Gym,以及 2017 年提出,並被 OpenAI 設定為預設強化學習演算法的近端策略優化(PPO)演算法,能夠控制更復雜的機器人。2018 年,OpenAI 在強化學習上火力全開,已經有多個重點研究方向浮出水面,如分散式深度強化學習中引數平均問題(Parameter Averaging)、通過生成模型,在不同的 GAMES 之間進行遷移問題、貪吃蛇專案 Slitherin 問題、 強化學習(RL)中的正規化(Regularization)問題等,相信會帶給業界更多的驚喜。
微軟 對強化學習的也是熱情高漲,以深度強化學習作為其 AI 聊天機器人的核心技術。其於 2017 年收購加拿大人工智慧創業公司 Maluuba 在論文 Multi-Advisor Reinforcement Learning 中強調了“多重引導強化學習機”,致力於研究開發一種機器智慧工具,以分析無結構化文字,從而使人機互動更加自然,也在推動著 RL 發展。
此外,中國的 BAT 也均致力於 RL 的研究和應用之中,並且已經取得不錯的成果。此外,涉及到實時性較強業務的公司大多也都有使用 RL,如新浪、美團、滴滴,以及 Prowler.io、Osaro、MicroPSI、英偉達、Mobileye 等公司也都是比較有名的 RL 研究企業。
首先,我們需要了解一下強化學習是什麼?為什麼會在圍棋遊戲中勝過人類專家?
強化學習是機器學習的方法之一,我們對監督式和非監督式學習比較熟悉,還有另外一個大類就是強化學習。
簡而言之,強化學習是指 autonomous agent,例如,人、動物、機器人或深度網路,通過獎勵達到最大化,來學會在不確定環境中進行定位。
為什麼強化學習會幫助 Alpha Go 戰勝人類最強棋手取得勝利呢?這是因為 RL 與監督式學習不同,在國際象棋和圍棋等賽事中,監督式學習不可能知道所有結果,但強化學習會在沒有任何標籤的情況下,通過先嚐試做出一些行為得到一個結果,然後得到是對還是錯的反饋(reward function),不斷調整之前的行為,演算法能夠學習到在什麼樣的情況下選擇什麼樣的行為可以得到最好的結果。通過強化學習,一個 agent 可以在探索和開發(exploration and exploitation)之間做權衡,並且選擇一個最大的回報。
非監督式學習不是學習輸入到輸出的對映,而是模式。與之相比,強化學習也有其優點。還以圍棋為例,非監督式學習會學習之前的做法向使用者推薦其一,而強化學習則是通過先推薦少量方法,並不斷獲得反饋之後,構建最優的“知識圖”。
這樣,RL 相比其他方法的優勢和特點使得 AI 演算法勝過人類,成為圍棋類遊戲背後演算法支援的得力助手,之後的圍棋和類似遊戲也都基本上沿襲了這一基因。
但除此之外,RL 的應用前景和用武之地還有很多,包括醫療、金融、廣告等領域。
例如 阿里巴巴 在雙 11 推薦場景中使用了深度強化學習與自適應線上學習,通過持續機器學習和模型優化建立決策引擎,對海量使用者行為以及百億級商品特徵進行實時分析,幫助使用者迅速發現寶貝,提高人和商品的 配對效率。比如,利用強化學習將 手機使用者點選率提升了 10-20%。運用強化學習框架,阿里巴巴平臺建立了一個消費者與系統互動的迴路系統,由於系統的決策建立在最大化過程收益上,從而達到系統與使用者的動態平衡,提高智慧搜尋和推薦流量投放的效率。
以百度為例,其因為 AI 投入扭轉了不利局勢,安全從低谷中走出。截至 2018 年 3 月 31 日的第一季度財報顯示,百度第一季總營收猛增 31%,達 209 億元人民幣 (33.3 億美元),淨利潤 67 億元(11 億美元),每股收益 16.6 人民幣 (2.60 美元),均高於市場預期。這樣的表現一方面得益於百度組織的優化調整,拋棄了許多累贅的業務,另一方面則要歸功於對 AI 的投入在廣告業務中獲得了回報。百度在財報中表示,公司首次在廣告系統中部署了強化學習,進而提高了廣告投放效率,百度廣告業務的增長離不開強化學習。在廣告系統中加入強化學習模型後,它會實時記錄瀏覽、點選、轉化等關鍵資料,並通過自我學習對投放進行優化,讓廣告能更精準地匹配到目標客群,以此達到廣告主“錢都花在刀刃上”的效果,花更少的錢,得到更精準的曝光。
和百度一樣,Facebook、微軟等要靠“金主爸爸”過活的平臺也在廣告系統中使用了 RL,如微軟公佈的一套名為“決策服務”的內部系統就應用於內容推薦和廣告業務上。在相關領域其他 RL 應用還包括跨渠道營銷優化和線上廣告展示的實時競價系統等。
RL 在高維控制問題中的應用,比如機器人,已經成為學術和工業界的一大研究主題。與此同時,一些創業公司也開始用 RL 為工業機器人來打造產品。有幾家創業公司已經在為一些公司製作能讓後者將 RL 和其他技術用進工業應用的工具,Bonsai 就是其中之一。工業自動化是另一個有前景的領域,比如 DeepMind 的強化學習技術幫助 Google 顯著降低了其資料中心的能耗(HVAC)。
在語言處理領域,最重要的任務是讓計算機可以更自然地與人交流。在這方面,RL 可以發揮很大的作用。如加拿大蒙特利爾大學 Yoshua Bengio 研究組提出的 MILABOT 的模型。該模型完全採用基於統計機器學習的方法,在處理和生成自然人類對話中做了儘可能少的假設。模型中每個元件的設計使用機器學習方法優化,通過強化學習對各個元件的輸出進行優化。
另外,Facebook 的人工智慧研究機構 FAIR 開源並公開發布的聊天機器人已經擁有了跟人類進行協商談判、進行討價還價的能力。通過監督學習 + 強化學習,這個聊天機器人不僅能理解字詞和語義的對應關係,還能針對自己的目標制定策略,跟別人進行協商討論達成一致。
摩根大通使用一套用於交易執行的系統。依託於 RL,這套系統被用於以可能的最快速度和最佳價格來執行交易。
作為 RL 的一個應用領域,自動駕駛近年來已經成為一個大熱門,現在,無人車研究團隊基本上都會在研究中將 RL 考慮在內,因為 RL 在自動駕駛策略學習方法、路線規劃等方面非常有用。例如,奧迪無人車 RC 就使用了深度 RL。在特斯拉,Autopilot 總監 Jim Keller 離職之後由 Andrej Karpathy 擔任人工智慧和 Autopilot Vision 負責人,負責 Autopilot 軟體團隊。而 Andrej Karpathy 是視覺化、深度學習、強化學習領域的專家,他在 RL 上的經驗會進一步強調 RL 的戰略意義。
除此之外,RL 還在製造業、教育和培訓、倉儲管理、動態定價、使用者運輸等領域有著廣泛的應用前景。
然而,強化學習果真如表面上看起來這樣光鮮亮麗嗎?雖然從百度財報的簡析中看了,強化學習在廣告上的應用似乎對提升營收效果非常不錯,阿里巴巴也宣稱將 RL 首次用到了個性化和廣告業務上帶來了業務上的提升,但深究起來,我們會發現並沒有資料直接表明 RL 在其中發揮了主要作用。
實際上,RL 在光鮮亮麗的外表之下,它並非一個完美的存在。正如吳恩達在舊金山 AI 大會上的主旨發言中所說,RL 需要 大量的資料,一個簡單的任務就需要千萬甚至上億的資料,與此同時,需要與那些能夠獲取模擬資料的領域(比如遊戲和機器人)建立聯絡,而這都不是容易的事。除此之外,入門 RL 之後會遇到各種難以解決的問題,甚至到最後會發現它其實並不是解決所有問題最好的方案,“術業有專攻”,RL 不能解決所有的問題。
深度學習強化本身存在 不穩定性:
看一個表示 DRL 模型隨著嘗試 random seed 數量下降的圖,我們會發現幾乎所有圖裡模型表現最終都會降到 0,如果運氣不好很可能長時間模型的曲線都不會有任何變化。
即使知道超引數和隨機種子,模型的細微差別會導致模型表現有天壤之別,甚至同一個演算法在同一個任務上的表現會截然不同。
即便一切順利,但隨著時間變長,模型可能會突然原因不明地出狀況,以至完全不工作,可能與過擬合和 variance 過大有關。
再如 存在噪聲和反饋時間長的問題:強化學習需要從 reward 訊號學習,且 reward 訊號經常比較稀疏(sparse)、有噪聲(noisy)、有延遲(delayed)。從執行動作(action)到產生 reward 的延遲,可能有上千步長,就是說強化學習沒有標籤表明在某種情況下應該做出什麼樣的行為,只有一個做出一系列行為後最終反饋回來的、能夠判斷當前選擇的行為是好是壞的訊號。而且強化學習的結果反饋是有延時的,有時候可能需要走了很多步以後才知道之前某步的選擇是好還是壞,而在反應過來之後已經距那一步百步千步之遙了,因此會十分耗時。
最後,我們或許還應該思考一個問題:為什麼谷歌並沒有把強化學習用在廣告上呢?是因為強化學習不穩定、存在噪聲、反饋時間長等問題,還是百度將之寫入財報更多是為了宣傳效果?對這個問題的思考或許會讓我們對炙手可熱的強化學習有更加深刻和清醒的認識。不過這個問題大概跟陸奇的離開對於百度的未來到底會有多大的影響一樣,只能等時間來給出答案了。
更多關於深度強化學習難以言說的“尷尬”之處,請參考: