決策智慧:方興未艾的人工智慧新方向

AIBigbull2050發表於2020-11-25

近日,中國科學院自動化研究所(以下簡稱自動化所)宣佈開放“廟算·智勝”戰#術兵棋即時策略人機對抗平臺,旨在進一步推動人機對抗智慧技術研究。據瞭解,該平臺曾用於“先知·兵聖”智慧博弈對抗系列賽事,具有平臺開放、線上對抗、技術共享等特點。

人機對抗是國際公認的探索決策智慧重要途徑之一。作為國家新一代人工智慧的重要發展方向,決策智慧的研究和發展方興未艾。同時,由於決策智慧涉及多個學科的交叉,相關的探索尚須各方共同努力。

涉及多個學科

到底該如何定義決策智慧?在近日舉辦的“首屆智慧決策論壇”上,自動化所所長徐波認為,由於我們對人類智慧的機理仍缺乏系統瞭解,對人工智慧做內涵式、學科式的定義仍然困難重重。但他介紹說,決策智慧強調智慧“產生於與其所處環境的互動”,且智慧應具備“對不確定性環境的探索和發現”的能力。

他解釋,決策智慧要求智慧體能在不確定的環境中做出合適的行動、選擇和決定。而這裡的“環境”,指的是人們試圖用人工智慧更好地瞭解、探索、建模和駕馭的物理世界、人類社會等系統。

有別於感知智慧,決策智慧主要基於對不確定環境的探索,因此需要獲取環境資訊和自身的狀態,從而進行自主決策,使由環境反饋的收益最大化。這一反饋形成的系統閉環,將使人工智慧擁有更完整的表現形式。

自動化所是國內率先開展人工智慧與腦科學交叉研究、建立國內第一個人工智慧學院的科研單位。目前,該所正將自主進化智慧作為重點投入、發展和突破的方向,已組織20餘個團隊開展決策智慧基礎理論、演算法、環境、評價、應用等研究。

在上述論壇上,歐洲科學院外籍院士、北京大學前沿計算研究中心教授鄧小鐵,清華大學交叉資訊科學院助理教授張崇潔,倫敦大學學院計算機系教授汪軍等學者也對決策智慧的內涵進行了探討。學者們指出,決策智慧帶有強烈的“行為主義”流派的色彩,而同時又能吸收“符號主義”和“連線主義”的精華。這種特點,使得決策智慧涉及計算機、控制、數學、認知心理學、神經科學等諸多學科。

“目前基於強化學習等方法的決策智慧,主要還是在學習‘狀態’到‘動作’的對映,與可解釋的、因果關係的、可以互動的決策還有很遠距離。”鄧小鐵表示。

與博弈論相互影響

在探索決策智慧的諸多路徑之中,多智慧體系統(以下簡稱多智慧體)是國際上人工智慧技術的前沿學科。人們寄希望於彼此通訊和協調的多智慧體採取協調行動,以解決大型、複雜的現實問題。但目前,很多基於強化學習的多智慧體研究方法並不夠成熟。

“博弈論是刻畫和分析多智慧體相互之間競爭最好的理論框架。”鄧小鐵認為,博弈論在多智慧體系統研究中將扮演理論基礎的角色,同時人工智慧的發展也給博弈論學科帶來了深遠的影響。

“從博弈論已有的理論中借鑑想法指導設計強化學習方法,常常能夠獲得較優的結果;而反之,如果沒有相應的理論作為指導,研究者們容易出現‘腳踩西瓜皮,滑到哪兒算哪兒’的尷尬局面。”鄧小鐵說,多智慧體系統若想有更好的發展,需要有相應的理論基礎,而博弈論正扮演這個角色。

此外,汪軍認為,機器學習系統本質上只是資訊處理系統的一個子集,目前的機器學習與資訊理論緊密結合,未來將有越來越多的資訊學理論被應用到機器學習以及多智慧體系統之中。

應重點投入

“強化學習”是當前網際網路經濟場景中,人們希望實現決策智慧的核心方法之一。在工業場景下,目前的做法一般是先在平臺上模擬,再到現實中進行適應。這種場景下的強化學習一般可以相對準確地進行模擬和應用。

然而,在樣本有效性問題上,一旦模擬器模擬出的資料不精確,資料的意義將大打折扣。

上述論壇與會學者介紹說,這是因為,當前的“模擬”多數僅是機械模擬環境,且常用高斯過程的混合模型模擬,仍然處於相對初級的階段。可以看到,當前的強化學習技術在較複雜場景中往往不能很好地工作,只有序列性強、動作空間簡單的場景(如網易雲、快手等的音影片推薦)才比較容易刻畫。

這也導致,相比於計算機視覺等感知智慧,決策智慧目前的應用落地仍不明顯。針對這一現象,與會學者們認為,虛實混合、數字孿生、教育場景下的搜尋推薦等場景都是強化學習有可能產生應用的地方,學術界可以主動進入工業界,一邊創業一邊研究,進而推動工業界變革。

“人工智慧還處在對環境沒有適應、認知和學習能力的發展初級階段。”與會學者認為,決策智慧作為人工智慧三個流派的融合入口,將成為研究的主流。

“決策智慧的基礎理論、演算法、環境、評價、應用等研究方興未艾。我國應當將面向重大需求的決策智慧作為重點投入、發展和突破的方向。”徐波表示。




來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69946223/viewspace-2736192/,如需轉載,請註明出處,否則將追究法律責任。

相關文章