離開阿里創業後融資上億,為何莉莉絲等大廠會青睞他們的AI技術?

遊資網發表於2020-10-12
假如給你的遊戲安排一個7x24小時不吃不睡,能打出高中低水平,運用成百上千種風格和策略的虛擬玩家,你會用它來做什麼?

在三年前創業的時候,袁泉和龍海濤並沒有什麼明確的設想和答案,他們只是看中了AI興起的趨勢,從阿里出來創辦了新公司啟元世界。遊戲圈的朋友可能不太瞭解,這兩位都是大神級的科學家,在阿里留下了輝煌的戰果。

袁泉曾在阿里認知計算實驗室擔任負責人、資深總監,締造了手機淘寶、手機天貓的推薦演算法,是阿里演算法技術的P10科學家。龍海濤曾是IBM中國研究院研究員,在阿里期間從事搜尋廣告業務的架構設計,主導了離線系統、線上引擎和搜尋核心的升級換代。

今年6月,啟元世界研究的星際AI以兩個2:0的成績擊敗了《星際爭霸I/II》全國冠軍黃慧明(TooDming),以及黃金總決賽三連冠選手李培楠(TIME),也意味著中國星際AI首次在公開比賽中戰勝國內頂級職業選手。

離開阿里創業後融資上億,為何莉莉絲等大廠會青睞他們的AI技術?

拿到這樣的成績之後,啟元世界也越發被資本關注。目前,該公司已累計獲得上億人民幣融資,由高榕資本等知名機構投資。不僅如此,不少一線遊戲廠商也看中了啟元AI的應用前景。

從今年起,啟元團隊陸陸續續接觸了不少一線遊戲廠商,發現大家的需求和想法遠高於預期,有的廠商則已經開始實際投入運用了。

“會決策”的新一代AI

幾年前,AI領域正是AlphaGo火爆的時候,對啟元的創始團隊而言,它就像是開啟了一個新的視窗:“不需要大量的標註資料,就能訓練出一個打敗世界冠軍的AI。”看到這個契機,他們決定離開阿里自行創業,並選擇了決策智慧和強化學習方向,用《星際爭霸II》來嘗試技術突破。

與人臉識別等AI選擇的監督學習技術不同,強化學習要求AI像人一樣,能做出連續的動態決策。

舉個簡單的例子,同樣是面對貓和狗的兩類資料,監督學習會對資料標註“貓”和“狗”的標籤,讓AI進行分類學習,然後用未標註的資料,讓AI辨別,最後通過神經網路的結合,優化AI的識別效率;強化學習則不會具體標註是“貓”還是“狗”,同時還需要訓練出的AI看到貓以後,能做出“擼貓”的決策,看到狗還會做出“上前逗一逗它”的決策。

這種更高門檻的技術要求,帶來了不少的難題,也使得業內挑戰這一領域的團隊偏少:從商業化的角度考慮,這套技術的成本一定要控制在比較低的水平,否則成本降不下來,無法大規模商業化。

從技術底層的角度來看,首先強化學習需要很大的算力,算力的組織如果做的不好,實現的效果會產生幾個數量級的差距;其次是演算法需要結合具體的應用場景做大量的最佳實踐積累;第三是整個團隊的專注和極致深耕能力。

好在,啟元世界在強化學習領域起步早,核心團隊在BAT、Netflix、香港科大等一流的工業場景和研究平臺上積累了多年,他們漸漸積累了一支近百人的技術團隊,專攻這一方向。而為了讓啟元AI達到現在《星際爭霸II》的“職業玩家”水平,他們做了幾百組的實驗,來篩選和優化合適的演算法。

離開阿里創業後融資上億,為何莉莉絲等大廠會青睞他們的AI技術?
去年底在加拿大NeurIPS 2019會場上,啟元星際AI首次公開

經過三年的打磨,終於攻克了這些難關。現在啟元AI相比海內外大廠的同類AI,基本可以節省一到兩個數量級的算力。有了這套底層的技術,啟元AI才能在今年6月戰勝國內星際頂級選手。

在今年China Joy參展之後,龍海濤明顯感受到來自遊戲廠商的關注,包括莉莉絲等來自上海、廣州的一線大廠,原因在於新一代遊戲AI設計的需求在變多。

遊戲AI存在了非常多年,但傳統遊戲AI設計至今一直鮮有變化,與遊戲圖形技術的高速進化形成了鮮明的對比。“傳統遊戲AI依靠行為樹的規則來設計,它的弊端在於規則是寫死的,當遊戲複雜度超出程式設計師設定的框架,AI就不知道該怎麼辦了。”

所以基於行為樹,既不能寫出能戰勝柯潔的AI,更不可能寫出能通過經驗反饋不斷自我學習、還能表現出高維度即時策略的複雜智慧體。這就好比是很多競技遊戲中的“人機”、“機器人”,它們並不像人。

啟元團隊發現,其實大家對AI的強度並沒有太高的追求,但對它的擬真度、真實性會有很高的要求,這恰好是模仿學習、強化學習、演化學習的強項。

比如在訓練啟元星際AI的時候,他們實現了260種TvT(指《星際爭霸II》人族內戰)的戰術,包括開局打法、兵種組合,以及多種即時性的隨機應變策略等。它的擬真度,高到足以讓職業選手無法分辨真偽。

離開阿里創業後融資上億,為何莉莉絲等大廠會青睞他們的AI技術?

在之前舉辦的比賽上,《星際爭霸I/II》全國冠軍黃慧明打完以後告訴他們,說完全看不出像機器人,還用“像一個賤賤的高手”來形容啟元AI:“看起來操作不太行,有失誤,覺得自己是有機會的,但實際打上去又打不過。”很多職業選手與啟元AI切磋之後,同樣有這種被下了套的感覺。

不過這只是AI的一面,啟元AI的泛化能力也很強:“由於AI可以不停地學習,只要算力足夠,它就可以覆蓋很多的場景,套路更多,也會更加靈活。”

這樣的AI,放到遊戲裡能做什麼?

與數十家一線遊戲廠商交流之後,啟元團隊收到了很多的建議,比如大DAU產品冷啟動、新手過渡保護、加速匹配、掉線託管等方面。還有模擬戰局、大體量資料的平衡性除錯,以及PVE活動設計、玩家行為分析等方方面面。

從目前已有的合作案例來看,啟元AI具體有兩個方向的應用:虛擬玩家陪玩和線下數值測試。

虛擬玩家陪玩,是目前廠商反饋中最普遍的一類應用模式。在前面對抗星際頂尖選手的時候,啟元AI用的是訓練了上千萬對局的智慧體,但在訓練中的每個階段,啟元AI都可以呼叫出不同水平、不同風格的智慧體。

“線上下訓練的時候,智慧體會自己打足夠的時間,通過自我對抗來提升水平,我們會設定類似天梯的規則,讓智慧體打出不同的水平。這時候我們會計算一個分值,來區分不同水平的智慧體,然後用人工校準一下,來對齊現實玩家的段位水平。”

這時候,儘管智慧體的最終目標都是取勝,但不同段位不同局面之下,它會體現出猥瑣、激進、穩健等不同的風格和打法。將這些智慧體部署到服務端,通過調節引數呼叫的方式,就可以生成對應段位、打法、風格的智慧體,成為一個虛擬的玩家。

在這個基礎上能做的事情就非常多了。

首先是大DAU產品的冷啟動。對於大DAU遊戲而言,前期使用者體量決定遊戲給人的熱度和匹配體驗,而如今買量成本高居不下,適度投放虛擬玩家就可以降低啟動門檻。

據瞭解,由於服務端的部署採用了團隊擅長的分散式架構、線上伺服器叢集等設計,所以現在他們可以做到智慧體的大規模併發服務,這帶來的益處是成本的大幅度降低:“一個虛擬玩家的成本差不多隻有真實玩家獲客成本的幾十分之一。”

其次可以實現更好的新手保護機制。在上手門檻較高的遊戲裡,再加上競技遊戲老手炸魚的問題,往往給新手的體驗會很差,匹配AI就可以很好地保護新手體驗。而虛擬玩家比常規AI的擬真度高出很多,當玩家察覺不出是否為真人的時候,保護機制帶來的體驗就會更好,最終這些正向反饋,都會提高遊戲的新手留存率。

第三是長線運營上的玩家維穩和喚醒。對於運營時間較長的遊戲,往往需要廠商花很大的精力防止流失和召回老玩家,而在提高現有玩家活躍度的過程中,加入智慧體可以更好地烘托氣氛,提高匹配速度、避免玩家長時間找不到人一起玩的問題。

最後是高階對局的加速匹配。在絕大多數遊戲當中,排除遊戲剛上線的情況下,新手區間和高玩區間的人數分佈往往偏少,大多數人會集中在中間的水平,所以與新手體驗需要保護一樣,高階局的匹配速度也可以藉助智慧體來提高。

總體來看,虛擬玩家最有價值的地方,是它能以相對低的成本對流量缺口進行適度的填補。“相當於是有一部分非付費玩家來幫你玩遊戲。”

除了虛擬玩家陪玩,線下數值測試也是一個很有價值的應用方向。因為啟元AI可以基於算力,在短時間內產生大量的對局,而且可以衍生出不同水平,甚至極端水平的智慧體。所以在不招募大量玩家的前提下,就可以藉助智慧體來進行遊戲數值平衡性的測試,預知問題點並進行調整。

“與我們合作的一款遊戲,在做線下測試的時候,發現某個武器的勝率只有40%,整體偏低,在反饋給策劃調整屬性之後,武器的勝率提升到了45%以上,這時候對局的平衡性就比較正常了。”類似的,通過調整不同的引數,比如英雄屬性、技能看英雄勝率,同樣可以針對性地調整平衡性。

如果仔細挖掘,啟元AI還有一些更細節的、功能化的應用空間。比如通過勝率預測來做玩法指引、操作指引,引導玩家做出更有效的決策;又如最強人機挑戰等PVE玩法,提供不同水平、有獨特風格、能隨機應變的智慧體供玩家挑戰;還有掉線託管,降低同隊伍其他玩家的負面體驗等等。

要實現這些功能也得做一些準備。

首先是對接。把遊戲的環境改造成AI可學習的環境,通過智慧體與遊戲的資訊互動來訓練。通過啟元提供的SDK開發工具,一般複雜度的遊戲幾周時間就可以完成對接。

其次是訓練。構建好學習環境後,啟元AI會在私有云上部署,通過智慧體聯賽,來進行自我學習,學習的時間視遊戲複雜度和所需智慧體水平而定。比如用《星際爭霸II》訓練職業水平的智慧體花了兩個月的時間,尤其在99%勝率到99.8%勝率訓練過程中,消耗的算力和時間最多。但低複雜度的遊戲、中低水平的AI耗時會少很多。

第三是部署。訓練好的智慧體會通過伺服器部署,遊戲通過設定相應難度、風格,直接呼叫智慧體進行真實的遊戲對局。“你可以理解成7x24小時,不吃不睡,智慧體就在那兒等著,隨時可以匹配你的遊戲對局,打完一局以後就再打一局。”

技術是產品想象力的基石

總體來看,現在啟元世界的AI技術更多的是應用在MOBA、FPS、MMO、SLG等需要大量使用者,存在多人互動場景的遊戲當中,但它的應用空間其實遠不止這些。

從短期來看,既然啟元AI可以模仿RTS、MOBA、FPS等重度競技類遊戲的玩家,那麼在受眾門檻更低的休閒競技品類中,自然也有發揮的空間。比如《糖豆人》、《荒野亂鬥》、“.io”類,以及《我飛刀玩得賊溜》等遊戲,其實都可以引入虛擬玩家,來產生多變對局體驗。

稍微長遠一些來看,NPC真實模擬,如3A大作中有自己生活規律,隨時可與玩家進行多種互動的角色,也是可以藉助AI來實現的。再放大來看,基於這種NPC模擬,去構建開放世界中一個自主運轉的城市、國家、種族,都是可以遐想的做法。

離開阿里創業後融資上億,為何莉莉絲等大廠會青睞他們的AI技術?

為了更進一步實現這些想法,啟元世界的AI技術也在快速迭代中。目前他們正著手研發第二個大版本,除了在算力效率上會提高數倍之外,也會突破更多的演算法效果,真正實現“Have Fun with AI”的願景。

其實,對啟元世界這樣鑽研技術服務的公司來說,他們能提供的,更多還是承載想象力的智慧工具和平臺。怎麼用新一代的遊戲AI技術這個問題,歸根結底是對遊戲創意設計的拷問:“假如你有一個隨時可以呼叫、擬人化的、高水平的、能適應不同風格的虛擬玩家,你打算怎麼用?”

來源:遊戲葡萄
地址:https://mp.weixin.qq.com/s/pOWt_AXbNxtKH8gFcCseYA

相關文章