前阿里P10大神AI創業,主打決策智慧,從《星際爭霸II》開始

量子位發表於2018-04-18
李根 假裝發自 克普魯 
量子位 報導 | 公眾號 QbitAI

看看別人家的玩遊戲事蹟。

在北京大學第42屆ACM-ICPC國際大學生程式設計競賽全球總決賽現場,一款基於《星際爭霸II》的AI人機協作挑戰賽也在同期進行,主辦方啟元世界,一家主打決策智慧的AI初創公司。

比這家初創公司更知名的是其創辦者:前阿里淘寶推薦演算法團隊創始人袁泉(演算法P10),以及前阿里搜尋廣告架構負責人龍海濤,他們都出自阿里電商核心部門。

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

 啟元世界創始人兼CEO袁泉(左)與聯合創始人兼CTO龍海濤(右)

“星際是我們一代人的青春記憶,也是決策智慧絕佳的訓練場景”,出於對《星際爭霸》的熱愛,也出於決策智慧的篤定,他們在2017年攜手創業,並且很快獲得高榕資本數千萬元天使投資。

袁泉和龍海濤,都不簡單。

袁泉和龍海濤其人

袁泉,離職前擔任阿里認知計算實驗室負責人、資深總監,是手機淘寶、手機天貓推薦演算法團隊締造者,2013年到2016年期間率隊打造了“千人千面”的手淘推薦系統,因此還拿下了當年雙11的CEO特別貢獻獎。“有好貨”、“猜你喜歡”等電商個性化產品,均出自其間。

加入阿里前,袁泉是IBM中國研究院的研究員,從事推薦等智慧決策演算法的研究,是IBM2011年全球銀行業FOAK創新專案發起人。

學術方面,還有十餘篇論文中標國際頂級會議ACM RecSys、KDD、SDM等,擁有多項中美技術專利,長期擔任ACM RecSys審稿人、IEEE Transaction on Games審稿人。

龍海濤則是袁泉阿里和IBM中國研究院的老戰友。在2013-2017年期間,龍海濤在阿里巴巴負責搜尋廣告業務的架構設計,主導了其核心的離線系統、線上引擎和索引核心的升級換代,並因此獲得了阿里媽媽“最佳團隊獎”、“最佳專案獎”和“雙十一個人創新特別獎”。

IBM研究院期間,他則從事移動計算方面的研究。之後還有過多年成功的技術創業經歷,為電信、銀行、能源等大型企業提供過IT解決方案。

目前,袁泉和龍海濤已經組建起了一支幾十人規模的團隊,在位於北京海淀區的辦公室,整日“吃飯睡覺打遊戲”,以及搞AI。

640?wx_fmt=jpeg

AI打星際

利用打遊戲搞AI,已經不算陌生。

廣泛一點看,AlphaGo、冷撲大師等標誌性的AI事件都在打遊戲。

即便狹隘一些,DeepMind、OpenAI等知名組織也都希望從星際、DOTA2這樣的遊戲中尋得AI突破,騰訊則還用AI+遊戲進行模型演算法研發、訓練。

那為啥啟元世界也選擇《星際爭霸》?

袁泉告訴量子位,《星際爭霸》一直是遊戲玩家心目中即時戰略類的經典之作,歷時十多年而不衰,現在之所以成為深度強化學習、決策智慧演算法研究的一個主要平臺和工具,是因為其蘊含了多智慧體協作、多工學習、巨集觀策略規劃等複雜問題,一旦取得部分突破和進展,對商業和社會發展都會帶來極大影響。同時,《星際爭霸》十多年來積累了非常非常多的資料,還可以從之前的經驗中進行學習和優化演算法。

此外挑戰也看得見。

第一,比起像圍棋或者象棋這種大家都可能看得見的、完全資訊下的博弈,《星際爭霸》是有戰爭迷霧的,所以必須去探路、偵查、瞭解對手的資訊,從而在不確定的情況下去做智慧決策。

第二,有非常巨大的搜尋空間。圍棋的搜尋空間大概在10^170,《星際爭霸》在128×128的地圖上並且人口上限是400個unit的情況下,它的搜尋空間大概在10^1685,比圍棋高很多個數量級,這還沒有算上其他狀態(比如說血量等等)的情況下。所以現有的任意一個單一演算法根本不可能解決《星際爭霸》裡面所有的問題。

第三,星際是一個即時對抗類的遊戲。如果說正常遊戲大概是1秒鐘24幀,那在星際中必須在42毫秒之內做出迅速的反應,而且這個反應不是一個action,而是一系列的action,每個unit都會採取行動,這對我們演算法的效能、效率、工程上的考慮都是非常大的挑戰。

第四,時間、空間上的推理。想要玩好星際,必須基於時序上、空間上去做推理,比如說地理位置的優勢,坦克如果架在哪裡可能會比較好,如果開分機在哪個位置去開會比較有利,甚至於軍營造在什麼地方,這些對於AI來說都需要進行一個空間上的推理。

最後,涉及多個智慧體協作。《星際爭霸》最高有400個unit,所以需要多個智慧體協作,需要多個兵種去配合,這對AI來講也是一個很大的挑戰。

可以順路一提的是,關於AI打《星際爭霸》,量子位也有過專門文章介紹,並且傳送過暴雪和DeepMind的工具包,感興趣即可移步。

啟元世界挑戰賽

在此次ACM-ICPC贊助活動現場,啟元世界也基於《星際爭霸II》給出了兩道人機協作的挑戰賽。

賽題一 :人機協作 vs 機機協作

水晶採集賽:在規定時間內,分為A、B兩隊,每隊兩個單位分別收集地圖上的藍色水晶。A隊為1人加1個具備協作能力的AI智慧體;B隊為兩個具備協作能力的AI智慧體。 比賽的關鍵在於A隊中的人和AI能否實時觀察、理解對方的意圖與行動,並能採取有效的行為進行合理分工,採集到更多的水晶。

640?wx_fmt=png

賽題二:人機對抗賽

Reaper爭霸:玩家與AI分佈操控10個星際爭霸II中獨具特色一類角色——Reaper,在廣袤的場地上進行對抗博弈。Reaper可發射一般子彈,也可以扔出手雷。選手需要審時度勢,根據不同的遊戲場景,採取靈活的協作博弈策略,操控己方的單位對AI一方進行攻擊,取得比賽的勝利。

在ACM-ICPC期間,有意者均可前往北大英傑交流中心試試。

或者直接尋求拿著薪水打遊戲,袁泉說目前公司在演算法、工程方面都希望招賢納士,擴充更多工程師入坑一起“玩遊戲”。

640?wx_fmt=png

當然,更長遠未來,從《星際爭霸》中學習訓練的AI,還會進入各行各業,從工業機器人的生產與操控,到自動化農業,智慧交通、物聯網領域,都不缺乏應用場景。

作者系網易新聞·網易號“各有態度”簽約作者


誠摯招聘

量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話介面,回覆“招聘”兩個字。

640?wx_fmt=jpeg

量子位 QbitAI · 頭條號簽約作者

վ'ᴗ' ի 追蹤AI技術和產品新動態



相關文章