Salesforce開發「AI經濟學家」,用強化學習設計稅收策略

機器之心發表於2020-08-24
用強化學習設計稅收策略,效果如何?

Salesforce開發「AI經濟學家」,用強化學習設計稅收策略

Salesforce 作為一家顛覆軟體定義的公司,開創了 SaaS、PaaS 的時代。它的創始人 Marc Benioff 給 Salesforce 的市場定位是:「軟體終結者」。

人們對於企業軟體的刻板印象一般是笨重、無聊和緩慢,但 Salesforce 的企業軟體卻用其在科技上的創新造就了一個市值巨大的公司。

一向以創新著稱的 Salesforce,這一次把目光聚焦在了經濟上。

經濟不平等正在全球範圍內愈演愈烈,並且因其對經濟機會、健康和社會福利的負面影響而備受矚目。對於政府來說,稅收是一項減輕經濟不平等的重要工具,但如何在減輕經濟不平等的同時保證生產率仍是一個待解決的問題。為此,Salesforce 提出了一項名為「The AI Economist」的新研究。該研究首次將強化學習(RL)引入稅收政策設計,以提供純粹的模擬和資料驅動解決方案。

The AI Economist 使用兩級 RL 框架(智慧體和稅收政策)來學習有理論基礎的經濟模擬中的動態稅收政策。該框架不使用先驗世界知識或建模假設,能夠直接針對任何社會經濟目標進行最佳化,並且僅從可觀察的資料中學習。

實驗表明,與 Emmanuel Saez 提出的稅收框架相比,the AI Economist 可以將經濟平等與生產率之間的權衡提高 16%。

此外,the AI Economist 在有人類參與的模擬中非常有效,除了在經濟平等-生產率的權衡方面優於基線之外,還能顯著提高收入加權(income-weighted)的平均社會福利。這表明,該方法有望改進實體經濟的社會成果。

Salesforce 的開發者希望 the AI Economist 能夠以傳統經濟研究無法輕易處理的複雜性水平,針對政策對現實世界經濟的影響進行客觀研究。

目前,Salesforce 已將 the AI Economist 這個專案在 GitHub 上開源。

專案地址:https://github.com/salesforce/ai-economist

開發者希望:
  • AI 研究者能為 the AI Economist 專案程式碼提出更多改進的意見;

  • 經濟社群的研究者為該專案貢獻專業知識,以開發豐富的經濟模擬、評估 AI 策略以及探索 AI 如何進一步解決更為複雜的經濟問題;

  • 政策專家能夠對此專案作出指導,並指出他們想用 the AI Economist 框架解決哪些經濟問題。

以下是該研究的詳細內容。

The AI Economist

應對現實世界中的社會經濟挑戰,需要設計和測試經濟政策。但是,由於缺乏適當的經濟資料和進行實驗的機會,在實踐中很難做到這一點。而在 the AI Economist 中,研究者訓練了社會計劃者(social planner)模型,用以發掘能夠在經濟平等和生產率之間高效尋找平衡點的稅收策略。開發者基於智慧體和政府都可以學習和適應的經濟模擬,提出了一種兩級深度強化學習方法來學習動態稅收策略。但 the AI Economist 的資料驅動方法未利用經濟建模假設,僅從觀測資料中學習。

Salesforce開發「AI經濟學家」,用強化學習設計稅收策略

論文連結:https://arxiv.org/abs/2004.13332

the AI Economist 主要有四點貢獻:

首先,研究者提出了一個具有競爭壓力和市場動態的經濟模擬環境。他們透過證明基準稅收系統與經濟理論相一致驗證了模擬的有效性,包括學得的智慧體行為和專業。

其次,該研究表明,由 AI 驅動的稅收政策與包括著名的 Saez 稅收框架在內的基線政策相比,將平等與生產率之間的平衡提高了 16%。

第三,研究者展示了幾個新出現的特徵:AI 驅動的稅收政策在質量上與基線不同,設定了較高的最高稅率和較高的低收入淨補貼。此外,針對 AI 代理商學到的新興稅收博弈策略,AI 驅動的稅收政策表現出色。

第四,AI 驅動的稅收政策在與人類參與者進行的實驗中使用時,也很有效。在 MTurk 上進行的實驗中,AI 稅收政策提供了與 Saez 框架相似的平等 - 生產率權衡。同時具有較高的反收入加權社會福利。

The AI Economist 的應用創新

人工智慧為複雜的經濟最佳化問題提供了強大的演算法和計算解決方案。因此,研究者開發了一種經濟策略設計方法。該方法運用強化學習和經濟模擬方法,以資料驅動的方式快速設計和評估新的經濟策略。

研究者在論文中介紹了透過 AI 智慧體進行模擬來研究經濟設計的框架。文中描述了模擬環境的核心機制,包括訓練 AI 智慧體進行最佳化的目標,並介紹了在這種情況下典型的經濟 AI 智慧體的突現行為(emergent behavior)。

Salesforce開發「AI經濟學家」,用強化學習設計稅收策略

該研究中使用的一般網路架構的示意圖。

如上圖所示,空間觀察(spatial observations)由兩個卷積層(CNN)的棧來處理,並被「壓平」為固定長度的特徵向量。該特徵向量與其他觀察輸入連線在一起,結果由兩個全連線層(MLP)的棧來處理。接下來,輸出被用於更新 LSTM 的隱藏狀態,動作 logit 透過更新後的隱藏狀態的線性投影來計算。最後,網路計算每個動作頭的 softmax 機率層。

對於智慧體策略,只有一個操作空間和操作頭。對於稅收策略,每種稅率都有一個單獨的動作空間和動作頭。

該研究中引入的社會計劃者(social planner),使用經濟政策來改善社會成果,尤其是在稅收和再分配兩方面。這一問題的難點在於稅收會降低生產率。工作者可能會因為對收入繳稅而選擇放棄勞動,從而減少了勞動的效用。這可能會對技能更高的工作者產生更高的影響。

因此,在經濟平等與生產力之間需要權衡:允許財富重新分配的相同干預措施也首先導致重新分配的財富減少。由於稅收和勞動力之間存在這種耦合關係,確定最佳稅收政策會帶來困難且受約束的最佳化問題。

研究者在論文中詳細描述了 the AI Economist 學到的稅收策略的型別,定義了可以採用的社會目標的型別,並描述瞭如何使用強化學習共同最佳化智慧體行為和經濟中使用的稅收策略。

藉助 AI 智慧體提升社會成果

研究者將 the AI Economist 的經濟成果與自由市場(不徵稅或再分配)、模擬的美國聯邦稅收計劃以及由 Saez 框架產生的稅收策略進行了比較。

對下圖中的 4 種情況,研究者都用強化學習來最佳化經濟 AI 智慧體的行為,結果如下圖所示。

Salesforce開發「AI經濟學家」,用強化學習設計稅收策略

總體經濟成果比較結果。

如上圖所示,the AI Economist 相比於基線模型顯著提高了平等 - 生產率權衡。所有基線模型均已收斂。

含有人類參與者的社會成果

此外,研究者還探討了 AI 學習的稅收策略能否在有人類參與(人可以賺錢)的經濟模擬中提高社會成果。為此,開發者在 Amazon Mechanical Turk(MTurk)平臺上進行了實驗,參與者來自美國。

研究發現,the AI Economist 的稅收策略可以在無需進行大量重新校準或微調的情況下擴充套件到有人類參與的模擬。與最強的基線(Saez 的稅收策略)相比,the AI Economist 實現了具有競爭力的經濟平等 - 生產率權衡,並獲得了更高的收入加權的社會福利。

Salesforce開發「AI經濟學家」,用強化學習設計稅收策略

倫理與道德規範

經濟模擬可以研究各種經濟誘因及其後果,包括利益相關者的資本主義模型。但本研究中使用的模擬不是實際可用於重新配置稅收政策的實際工具。研究者鼓勵任何使用 the AI Economist 的人釋出描述經過訓練的 AI 驅動的稅收模型的道德考量的模型卡片和資料表,以提高透明度。

此外,研究者認為未來任何基於經濟模擬的應用程式或策略都應以可查的程式碼為基礎,並具有完全的透明度。

參考連結:
https://t.co/PxB3K44MCn?amp=1
https://t.co/XdLwBsYYCq?amp=1
https://t.co/FtYFXNpU0g?amp=1

相關文章