2016 年 3 月,AlphaGo 橫空出世,以 4:1 的比分打敗李世石。一年後,升級版 AlphaGo 捲土重來,以 3:0 的比分完勝中國棋手柯潔,再次重新整理了戰績。
在圍棋領域打遍天下無敵手之後,AlphaGo 背後的谷歌 AI 子公司 DeepMind 並沒有停止在競技遊戲領域探索的腳步,開始把目光瞄向了新的任務——《星際爭霸 II》。
這是一款經典的即時戰略遊戲,由於其遊戲的深度、平衡性及近乎完美的設計、瞬息萬變的局勢變化,近年來一直被認為是人工智慧在解決圍棋問題後的下一個終極挑戰。DeepMind 團隊的核心成員如 AlphaGo 的幕後推手黃士傑、AlphaGo 專案主要負責人 David Silver,以及西班牙《星際爭霸 II》世界冠軍、DeepMind 研究科學家 Oriol Vinyals 等均把精力投入於此。
而在國內,一家同樣基於《星際爭霸 II》探索 AI 潛力創業公司浮出水面。
遊戲裡遇上 AI,誰輸誰贏?
在第 42 屆 ACM-ICPC 國際大學生程式設計競賽全球總決賽上,以認知決策智慧技術為核心的創業公司啟元世界首次亮相,並舉辦了基於《星際爭霸 II》的 AI 人機協作挑戰賽,以推動人機相互理解、相互協作等決策智慧技術的研究。
具體來說,這場 AI 人機協作挑戰賽有兩項賽題。
第一項挑戰為水晶採集賽,是人機協作與機機協作的比拼。
在規定時間內,分為 A、B 兩隊,每隊兩個單位分別收集地圖上的藍色水晶。A 隊為 1 個玩家加上 1 個具備協作能力的 AI 智慧體;B 隊為兩個具備協作能力的 AI 智慧體。比賽的關鍵在於 A 隊中的人和 AI 能否實時觀察、理解對方的意圖與行動,並能採取有效的行為進行合理分工,採集到更多的水晶。
據統計,全天比賽一共收集 209 場有效資料,其中 A 隊獲勝 102 局,勝率 48.8%,B 隊獲勝 83 局,勝率 39.7%,平局 24 局,平手率 11.5%。
在現場,機器之能也上手體驗了與 AI 智慧體配合採集水晶的過程。可以發現,友方的 AI 智慧體不僅會配合人類玩家的走位、分頭採集,還能對敵方 AI 展開干擾和阻擋。
啟元世界創始人兼 CEO 袁泉告訴機器之能,相較於機機協作,人機協作的重點在於 AI 要實時地感知、理解人的意圖,「這比機器理解機器更難,缺少一個實時的通道是個重要因素。」在此基礎上,AI 還要針對博弈的對手進行建模,才能做出最優的決策方案。
第二項挑戰為 Reaper 爭霸賽,是人機對抗。
人類玩家與 AI 分別操控 10 個星際爭霸 II 中獨具特色一類角色——Reaper,在廣袤的場地上進行對抗博弈。Reaper 可發射一般子彈,也可以扔出手雷。選手需要根據不同的遊戲場景,採取靈活的協作博弈策略,操控己方的單位對 AI 一方進行攻擊,取得比賽的勝利。
在機器之能觀察現場工作人員與 AI 一方展開 PK 的大約十分鐘裡,人類玩家沒有一次能夠戰勝機器。相較於人類玩家,AI 看起來似乎更懂得「審時度勢」,能夠藉助場地地形等最大程度發揮自己的攻勢。
而當 AI 具備了超越人類的個體能力之後,如何更好地區理解 AI、理解 AI 和人之間的聯絡,從而讓 AI 幫助到人類自身就成為了一個新的問題。
對此,啟元世界給出的答案是決策智慧,這場人機協作挑戰賽就是公司在這個方向上的第一次嘗試。
以世界級難題決策智慧為核心
袁泉告訴機器之能,之所以選擇決策智慧這個方向,與公司創始團隊的基因密不可分。
在創業之前,袁泉曾擔任阿里認知計算實驗室負責人、資深總監,是手機淘寶天貓推薦演算法團隊締造者。在過去的十餘年裡,袁泉一直從事網際網路中重要的輔助決策系統——個性化推薦演算法的研究,並在淘寶天貓的上億使用者場景中,進行了一系列成功的落地應用,包括在 2015、16 年雙 11 中上線的基於線上學習的實時推薦。袁泉表示,這應該是輔助決策智慧在國內乃至世界範圍內最大規模的一次應用。
公司的聯合創始人兼 CTO 龍海濤曾在阿里巴巴負責搜尋廣告業務的架構設計,主導了其核心的離線系統、線上引擎和索引核心的升級換代,並完成了對阿里媽媽搜尋廣告的重構,為架構下一代智慧決策系統積累了經驗。
2018 年 8 月,二人聯合創立了啟元世界,同年,公司獲得來自高榕資本的數千萬元人民幣天使輪融資。
「過去,我們在經典的網際網路電商場景中積累了較多的經驗。在搜尋、廣告、推薦等背景下,大資料和機器學習技術的結合就能產生很好的效果,但智慧的體現還不夠充分。」袁泉說道,「我們希望通過新一代的決策智慧技術,讓具體的應用場景可以有一個大幅度、成倍的商業價值的提升。」
袁泉表示,任何需要精準營銷、信用評級的場景都是決策智慧的應用場景。除了遊戲領域,還包括工業機器人的生產與操控、自動化農業、智慧交通、物聯網等各個領域。
在過去的幾年裡,人工智慧的發展速度肉眼可見。伴隨著計算機視覺、語音識別等技術的迭代優化,從感知智慧到認知智慧技術的發展都有著顯著的飛躍,而這些都是決策智慧發展的先決條件。
不過,目前決策智慧仍是一個世界級的難題。
首先,決策是主觀與客觀、理智與情感相融合的過程,目前計算機擅於處理的是理性可計算部分,因此需要更好的建模和逼近路徑;
其次,影響決策的因素非常多,人是在多源資訊密佈的環境中進行決策,需要有效甄別和提取有效資訊,同時對未知資訊進行推理和假設。
另外,各個行業運用決策智慧的場景往往是要求實時決策,甚至是高併發決策,如網際網路中通常需要在毫秒級返回給使用者的推薦結果,因此對系統架構上挑戰也很大。
《星際爭霸II》與深度強化學習
在啟元世界看來,《星際爭霸 II》是訓練和驗證決策智慧技術的絕佳平臺。
「遊戲領域有自己的特點,它是一個非常乾淨、純粹的研究平臺。」袁泉解釋道,由於遊戲平臺的鏈條短,迭代快,演算法的有效性可以在不受真實環境干擾的情況下訓練、展現出來。
而《星際爭霸 II》這款遊戲本身存在的一些特質也使它成為了各家公司展開 AI 研究的不二選擇,例如遊戲不能完全看到所有地圖,需要在不確定的情況下進行智慧決策;實時對抗性對演算法的效能、效率、工程上都存在很大考驗等;需要長期的規劃和時間空間上的推理等。
事實上,早在 2010 年就有研究人員針對這款遊戲中的 AI 展開研究,但是當時主要還是基於預程式設計的規則,演算法還無法戰勝真正的人類。
2016 年 11 月,DeepMind 與暴雪娛樂達成協議,將基於《星際爭霸 II》開發一個介面以便讓 AI 研究人員將機器學習軟體與遊戲對接。
此外,Facebook 和微軟的研究人員也曾發表相關論文,展示了 AI 在這款遊戲上的研究成果。
今年 1 月,DeepMind 研究科學家 Oriol Vinyals 在演講中透露了公司在這款遊戲上的最新進展:儘管 AI 還不能完成整局遊戲,但可以實現相對簡單的操作,但在建造建築、收集資源等任務上和專業的玩家還有一段距離。
袁泉告訴機器之能表示,在實現這一切的背後,最關鍵的技術就是深度強化學習。「深度強化學習能夠讓 AI 具備快速迭代學習的能力,包括協作中合作和競爭下的博弈。」
簡單理解起來,深度強化學習就是深度學習與強化學習的結合。深度學習給出了表徵問題和解決問題的方式,強化學習定義了優化的目標,因此二者的結合能夠解決很多複雜的問題,接近所謂的通用智慧。
目前,世界範圍內深度強化學習的效果效能主要集中在遊戲領域。近年來,伯克利大學和 DeepMind 等在這方面也有不少進展,並試圖把虛擬遊戲場景中訓練好的資料應用到實體場景中去。
不過,由於這項技術的發展仍處於早期階段,成功案例較少,因此業內出現過「深度強化學習勸退」的聲音。
對此,袁泉表示:「現在深度強化學習所處的階段就像 2012 年之於深度學習,技術的發展路徑是一步步前進的。從我們自己的實踐經驗來看,這是一個很重要的方向。」
而在眼下,《星際爭霸 II》就是一個蘊含了豐富通用人工智慧及決策智慧的研究場景,袁泉告訴機器之能,希望能有更多感興趣的朋友加入啟元世界一起進行研究。
「十多年前,我們上學的時候,星際爭霸是最 Popular 的遊戲。在這個遊戲上研究 AI 可以讓我們把個人愛好和工作結合起來。」袁泉笑著說道。