離開阿里創業後融資上億，為何莉莉絲等大廠會青睞他們的AI技術？

假如給你的遊戲安排一個7x24小時不吃不睡，能打出高中低水平，運用成百上千種風格和策略的虛擬玩家，你會用它來做什麼？

在三年前創業的時候，袁泉和龍海濤並沒有什麼明確的設想和答案，他們只是看中了AI興起的趨勢，從阿里出來創辦了新公司啟元世界。遊戲圈的朋友可能不太瞭解，這兩位都是大神級的科學家，在阿里留下了輝煌的戰果。

袁泉曾在阿里認知計算實驗室擔任負責人、資深總監，締造了手機淘寶、手機天貓的推薦演算法，是阿里演算法技術的P10科學家。龍海濤曾是IBM中國研究院研究員，在阿里期間從事搜尋廣告業務的架構設計，主導了離線系統、線上引擎和搜尋核心的升級換代。

今年6月，啟元世界研究的星際AI以兩個2：0的成績擊敗了《星際爭霸I/II》全國冠軍黃慧明（TooDming），以及黃金總決賽三連冠選手李培楠（TIME），也意味著中國星際AI首次在公開比賽中戰勝國內頂級職業選手。

拿到這樣的成績之後，啟元世界也越發被資本關注。目前，該公司已累計獲得上億人民幣融資，由高榕資本等知名機構投資。不僅如此，不少一線遊戲廠商也看中了啟元AI的應用前景。

從今年起，啟元團隊陸陸續續接觸了不少一線遊戲廠商，發現大家的需求和想法遠高於預期，有的廠商則已經開始實際投入運用了。

“會決策”的新一代AI

幾年前，AI領域正是AlphaGo火爆的時候，對啟元的創始團隊而言，它就像是開啟了一個新的視窗：“不需要大量的標註資料，就能訓練出一個打敗世界冠軍的AI。”看到這個契機，他們決定離開阿里自行創業，並選擇了決策智慧和強化學習方向，用《星際爭霸II》來嘗試技術突破。

與人臉識別等AI選擇的監督學習技術不同，強化學習要求AI像人一樣，能做出連續的動態決策。

舉個簡單的例子，同樣是面對貓和狗的兩類資料，監督學習會對資料標註“貓”和“狗”的標籤，讓AI進行分類學習，然後用未標註的資料，讓AI辨別，最後通過神經網路的結合，優化AI的識別效率；強化學習則不會具體標註是“貓”還是“狗”，同時還需要訓練出的AI看到貓以後，能做出“擼貓”的決策，看到狗還會做出“上前逗一逗它”的決策。

這種更高門檻的技術要求，帶來了不少的難題，也使得業內挑戰這一領域的團隊偏少：從商業化的角度考慮，這套技術的成本一定要控制在比較低的水平，否則成本降不下來，無法大規模商業化。

從技術底層的角度來看，首先強化學習需要很大的算力，算力的組織如果做的不好，實現的效果會產生幾個數量級的差距；其次是演算法需要結合具體的應用場景做大量的最佳實踐積累；第三是整個團隊的專注和極致深耕能力。

好在，啟元世界在強化學習領域起步早，核心團隊在BAT、Netflix、香港科大等一流的工業場景和研究平臺上積累了多年，他們漸漸積累了一支近百人的技術團隊，專攻這一方向。而為了讓啟元AI達到現在《星際爭霸II》的“職業玩家”水平，他們做了幾百組的實驗，來篩選和優化合適的演算法。

去年底在加拿大NeurIPS 2019會場上，啟元星際AI首次公開

經過三年的打磨，終於攻克了這些難關。現在啟元AI相比海內外大廠的同類AI，基本可以節省一到兩個數量級的算力。有了這套底層的技術，啟元AI才能在今年6月戰勝國內星際頂級選手。

在今年China Joy參展之後，龍海濤明顯感受到來自遊戲廠商的關注，包括莉莉絲等來自上海、廣州的一線大廠，原因在於新一代遊戲AI設計的需求在變多。

遊戲AI存在了非常多年，但傳統遊戲AI設計至今一直鮮有變化，與遊戲圖形技術的高速進化形成了鮮明的對比。“傳統遊戲AI依靠行為樹的規則來設計，它的弊端在於規則是寫死的，當遊戲複雜度超出程式設計師設定的框架，AI就不知道該怎麼辦了。”

所以基於行為樹，既不能寫出能戰勝柯潔的AI，更不可能寫出能通過經驗反饋不斷自我學習、還能表現出高維度即時策略的複雜智慧體。這就好比是很多競技遊戲中的“人機”、“機器人”，它們並不像人。

啟元團隊發現，其實大家對AI的強度並沒有太高的追求，但對它的擬真度、真實性會有很高的要求，這恰好是模仿學習、強化學習、演化學習的強項。

比如在訓練啟元星際AI的時候，他們實現了260種TvT（指《星際爭霸II》人族內戰）的戰術，包括開局打法、兵種組合，以及多種即時性的隨機應變策略等。它的擬真度，高到足以讓職業選手無法分辨真偽。

在之前舉辦的比賽上，《星際爭霸I/II》全國冠軍黃慧明打完以後告訴他們，說完全看不出像機器人，還用“像一個賤賤的高手”來形容啟元AI：“看起來操作不太行，有失誤，覺得自己是有機會的，但實際打上去又打不過。”很多職業選手與啟元AI切磋之後，同樣有這種被下了套的感覺。

不過這只是AI的一面，啟元AI的泛化能力也很強：“由於AI可以不停地學習，只要算力足夠，它就可以覆蓋很多的場景，套路更多，也會更加靈活。”

這樣的AI，放到遊戲裡能做什麼？

與數十家一線遊戲廠商交流之後，啟元團隊收到了很多的建議，比如大DAU產品冷啟動、新手過渡保護、加速匹配、掉線託管等方面。還有模擬戰局、大體量資料的平衡性除錯，以及PVE活動設計、玩家行為分析等方方面面。

從目前已有的合作案例來看，啟元AI具體有兩個方向的應用：虛擬玩家陪玩和線下數值測試。

虛擬玩家陪玩，是目前廠商反饋中最普遍的一類應用模式。在前面對抗星際頂尖選手的時候，啟元AI用的是訓練了上千萬對局的智慧體，但在訓練中的每個階段，啟元AI都可以呼叫出不同水平、不同風格的智慧體。

“線上下訓練的時候，智慧體會自己打足夠的時間，通過自我對抗來提升水平，我們會設定類似天梯的規則，讓智慧體打出不同的水平。這時候我們會計算一個分值，來區分不同水平的智慧體，然後用人工校準一下，來對齊現實玩家的段位水平。”

這時候，儘管智慧體的最終目標都是取勝，但不同段位不同局面之下，它會體現出猥瑣、激進、穩健等不同的風格和打法。將這些智慧體部署到服務端，通過調節引數呼叫的方式，就可以生成對應段位、打法、風格的智慧體，成為一個虛擬的玩家。

在這個基礎上能做的事情就非常多了。

首先是大DAU產品的冷啟動。對於大DAU遊戲而言，前期使用者體量決定遊戲給人的熱度和匹配體驗，而如今買量成本高居不下，適度投放虛擬玩家就可以降低啟動門檻。

據瞭解，由於服務端的部署採用了團隊擅長的分散式架構、線上伺服器叢集等設計，所以現在他們可以做到智慧體的大規模併發服務，這帶來的益處是成本的大幅度降低：“一個虛擬玩家的成本差不多隻有真實玩家獲客成本的幾十分之一。”

其次可以實現更好的新手保護機制。在上手門檻較高的遊戲裡，再加上競技遊戲老手炸魚的問題，往往給新手的體驗會很差，匹配AI就可以很好地保護新手體驗。而虛擬玩家比常規AI的擬真度高出很多，當玩家察覺不出是否為真人的時候，保護機制帶來的體驗就會更好，最終這些正向反饋，都會提高遊戲的新手留存率。

第三是長線運營上的玩家維穩和喚醒。對於運營時間較長的遊戲，往往需要廠商花很大的精力防止流失和召回老玩家，而在提高現有玩家活躍度的過程中，加入智慧體可以更好地烘托氣氛，提高匹配速度、避免玩家長時間找不到人一起玩的問題。

最後是高階對局的加速匹配。在絕大多數遊戲當中，排除遊戲剛上線的情況下，新手區間和高玩區間的人數分佈往往偏少，大多數人會集中在中間的水平，所以與新手體驗需要保護一樣，高階局的匹配速度也可以藉助智慧體來提高。

總體來看，虛擬玩家最有價值的地方，是它能以相對低的成本對流量缺口進行適度的填補。“相當於是有一部分非付費玩家來幫你玩遊戲。”

除了虛擬玩家陪玩，線下數值測試也是一個很有價值的應用方向。因為啟元AI可以基於算力，在短時間內產生大量的對局，而且可以衍生出不同水平，甚至極端水平的智慧體。所以在不招募大量玩家的前提下，就可以藉助智慧體來進行遊戲數值平衡性的測試，預知問題點並進行調整。

“與我們合作的一款遊戲，在做線下測試的時候，發現某個武器的勝率只有40%，整體偏低，在反饋給策劃調整屬性之後，武器的勝率提升到了45%以上，這時候對局的平衡性就比較正常了。”類似的，通過調整不同的引數，比如英雄屬性、技能看英雄勝率，同樣可以針對性地調整平衡性。

如果仔細挖掘，啟元AI還有一些更細節的、功能化的應用空間。比如通過勝率預測來做玩法指引、操作指引，引導玩家做出更有效的決策；又如最強人機挑戰等PVE玩法，提供不同水平、有獨特風格、能隨機應變的智慧體供玩家挑戰；還有掉線託管，降低同隊伍其他玩家的負面體驗等等。

要實現這些功能也得做一些準備。

首先是對接。把遊戲的環境改造成AI可學習的環境，通過智慧體與遊戲的資訊互動來訓練。通過啟元提供的SDK開發工具，一般複雜度的遊戲幾周時間就可以完成對接。

其次是訓練。構建好學習環境後，啟元AI會在私有云上部署，通過智慧體聯賽，來進行自我學習，學習的時間視遊戲複雜度和所需智慧體水平而定。比如用《星際爭霸II》訓練職業水平的智慧體花了兩個月的時間，尤其在99%勝率到99.8%勝率訓練過程中，消耗的算力和時間最多。但低複雜度的遊戲、中低水平的AI耗時會少很多。

第三是部署。訓練好的智慧體會通過伺服器部署，遊戲通過設定相應難度、風格，直接呼叫智慧體進行真實的遊戲對局。“你可以理解成7x24小時，不吃不睡，智慧體就在那兒等著，隨時可以匹配你的遊戲對局，打完一局以後就再打一局。”

技術是產品想象力的基石

總體來看，現在啟元世界的AI技術更多的是應用在MOBA、FPS、MMO、SLG等需要大量使用者，存在多人互動場景的遊戲當中，但它的應用空間其實遠不止這些。

從短期來看，既然啟元AI可以模仿RTS、MOBA、FPS等重度競技類遊戲的玩家，那麼在受眾門檻更低的休閒競技品類中，自然也有發揮的空間。比如《糖豆人》、《荒野亂鬥》、“.io”類，以及《我飛刀玩得賊溜》等遊戲，其實都可以引入虛擬玩家，來產生多變對局體驗。

稍微長遠一些來看，NPC真實模擬，如3A大作中有自己生活規律，隨時可與玩家進行多種互動的角色，也是可以藉助AI來實現的。再放大來看，基於這種NPC模擬，去構建開放世界中一個自主運轉的城市、國家、種族，都是可以遐想的做法。

為了更進一步實現這些想法，啟元世界的AI技術也在快速迭代中。目前他們正著手研發第二個大版本，除了在算力效率上會提高數倍之外，也會突破更多的演算法效果，真正實現“Have Fun with AI”的願景。

其實，對啟元世界這樣鑽研技術服務的公司來說，他們能提供的，更多還是承載想象力的智慧工具和平臺。怎麼用新一代的遊戲AI技術這個問題，歸根結底是對遊戲創意設計的拷問：“假如你有一個隨時可以呼叫、擬人化的、高水平的、能適應不同風格的虛擬玩家，你打算怎麼用？”

來源：遊戲葡萄
地址：https://mp.weixin.qq.com/s/pOWt_AXbNxtKH8gFcCseYA

離開阿里創業後融資上億，為何莉莉絲等大廠會青睞他們的AI技術？

相關文章