隨著 AI 的不斷研究和發展,各類 AI 演算法在不同場景中的應用層出不窮,關於 AI 及其在日常任務中支援甚至取代人類工作的能力的討論無處不在。例如,在自動駕駛領域,儘管在目前的條件下自動汽車還不能完全替代人類,但關於何時能夠完全取代人類駕駛員的問題仍然受到了高度關注。從長遠來看,使用 AI 替代人類並非不可能,但是這種替代是否能在所有工作場景中實現?
目前,一些 AI 勝過人類的場景主要出現在有大量可用訓練資料或標註影像的機器學習領域中,例如 Google 的 DeepMind AlphaGO 遊戲等。而在樣本資料很少或完全無監督的情況下,AI 的水平還很有侷限性。在這篇文章中,我們關注 Human vs AI 的問題,即在不同的任務中人類的學習能力和機器的學習能力究竟哪個更勝一籌?他們的差距究竟還有多大?
1 Human & AI,怎麼學習?
1.1 人類學習
首先,我們先來看看人類學習的方法和能力。
目前,關於人類學習的研究主要包括三種方向:認知心理學(Cognitive psychology)、社會認知理論(Social cognitive theory)和社會文化理論(Sociocultural theory)。
認知心理學是“研究人們如何感知、學習、記憶和思考資訊的學科”。認知心理學的研究包括研究心理現象,如視覺感知、物體識別、注意、記憶、知識、言語感知、判斷和推理。目前機器學習領域中的監督學習就是參考認知心理學的神經科學(Neuroscience)和腦功能(Brain functioning)發展而來的。
社會認知理論也包含了一些與認知心理學類似的觀點,但它更關注人類如何透過觀察和模仿他人的行為來向他人學習。社會認知理論表明人類是可以控制自己的學習的。與從自己的經驗中學習相比,社會認知理論中所強調的向他人學習還有一個好處,即透過減少犯錯來更快地學習。
社會文化理論強調社會和文化在學習中的重要性。學習一種像語言這樣的社會文化工具不僅有助於交流,而且有助於人類的思維發展。與社會認知理論不同的是,人類不僅相互學習,而且共同努力實現個人無法實現的目標。例如,社會文化理論研究的重點是兒童與父母的互動。兒童個人能力的發展通常與他 / 她和父母的互動有關。此外,父母可以擴大孩子解決問題的能力,刺激認知能力的增長。
1.2 人工智慧學習
然後,我們來看看人工智慧究竟是如何進行學習的?
目前,關於人工智慧的學習已經覆蓋到了知識獲取、理解、感知、創造甚至是做出道德評判等多個層面。例如,可以利用人臉識別技術抓捕犯人,利用影像識別技術識別不戴口罩、不按規程操作的明廚亮灶監控報警等等。以機器學習的人工智慧技術為例,它描述的是在計算機系統幫助下解決各種實際任務的技術,這些計算機系統 / 程式可以透過學習來解決一個任務,而不是透過顯式程式設計的方式來完成任務。機器學習的方法也包括有監督的方法、無監督的方法和增強學習方法等等。
無監督機器學習主要是指能夠揭示先前未知資料模式的方法和演算法。由於不存在假設的真值(Ground truth),無監督學習不一定能夠找到 “正確的” 解決方案,比如 k-means 能因為根據不同的初始條件獲得不同答案。屬於半監督學習的強化學習基於單純的獎勵和懲罰訊號使得模型透過不斷學習新的樣本例項來改進演算法或模型的效果。對於有監督學習,“學習”意味著使用一系列樣本例項和對應的“答案”(“過去的經驗”)來建立關於給定任務的知識。雖然在學習過程中經常會引入統計方法,但並不需要手動調整模型或進行程式設計來解決任務。更詳細地說,有監督學習旨在透過對一組已知的資料應用一個演算法來構建一個模型,從而能夠解決未知資料集中的任務。一般來講,有監督學習依賴於大規模的先驗資料。
1.3 人類 vs 人工智慧學習
關於對比人類和 AI 學習的能力,Hernandez-Orallo 首次提出了關於自然和人工智慧的比較[1]。此外,專門的神經科學(Neuroscience)這一領域的研究也涉及了一些關於 human vs AI 的討論。它的目的是從理論上去理解人類學習和機器的相互促進作用。一些研究人員分別從創造力測試(Creativity Tests)、人臉識別(Face Recognition)、音樂預測(Music Prediction)、計算機視覺(Computer Vision)、IQ 測試(IQ Tests)和認知研究(Cognitive Research)等不同應用場景對人類和機器的相互促進能力進行了理論和實證分析。
不過,目前直接對比人類和機器的學習能力和完成任務能力的系統性、深入性的理論和實證研究還較少。在這篇文章中,我們列舉了一些有趣的 human vs AI 的競賽。競賽任務型別涵蓋了邏輯分類、影像處理、文字生成、IQ 測試等。從競賽的結果看,人類的學習能力還是明顯佔上風的。也許正如一些研究人員提出的,目前的機器是非常 Diligent(勤奮刻苦的),但距離真正的像人類一樣的 Intelligent(聰明智慧的)還有很長很長的路要走。
2 人類與 AI 的競賽
在這一節中,我們選擇了幾個人類與 AI 的競賽結果進行分析。這裡,用於競賽的人工智慧方法既包括以深度學習為代表的機器學習演算法 / 模型,也包括一些經典的演算法和模型。
2.1 影像修復(Image Inpainting)能力對比
這個競賽關注的是影像處理中的一個應用領域:影像修復(Image Inpainting)。
實驗地址:https://github.com/xitu/gold-miner/blob/master/TODO1/image-inpainting-humans-vs-ai.md
Image Inpainting 的主要任務是填充影像中的資訊缺失區域,補足這些資訊,使修補後的影像看起來真實、自然。這項技術也可以用於去除掉影像中的某些區域,使處理後的影像不失真,因此在老照片修復、遙感影像處理等領域中非常重要。下圖是最經典的影像修復實驗結果。
圖 1. 影像修復示例,移除目標物[2]
影像修復並不是 AI 時代新興的技術,而是一門古老的藝術,最初是由人類藝術家手工完成的。但是今天,研究人員提出了許多自動修復方法。作為自動處理演算法,除了待修復的影像外還必須輸入一個顯示待修復區域的掩碼作為輸入。在這個實驗中,作者將九種自動修復方法與專業藝術家的結果進行比較。
作者從私人收藏的照片中剪下出 33 個 512×512 畫素的影像以構建實驗所用的影像資料集。然後用黑色在每個照片中心畫一個 180×180 畫素的方塊。人類藝術家和自動修復方法的任務都是透過改變黑方塊(掩碼區域)中的畫素來恢復失真影像。作者使用的是私人的、未公開的照片集,以確保在實驗中人類藝術家並沒有提前看到過原始影像。儘管在實際應用中,掩模的形狀不一定是規則的,但在實驗中還是使用了正方形的掩模,因為實驗中有些 DNN 方法僅能使用正方形掩模進行處理。作者使用的照片示例如下:
圖 2. 樣本照片示例
實驗中使用了九種自動修復方法作為機器學習的方法示例,其中,前六種方法為以神經網路為基礎的機器學習方法,後三種是深度學習爆發之前的計算機自動處理方法。具體包括:
(1)深度影像先驗 Deep Image Prior,https://arxiv.org/abs/1711.10925
(2)全域性和區域性一致性影像修復 Globally and Locally Consistent Image Completion,http://iizuka.cs.tsukuba.ac.jp/projects/completion/en/
(3)高解析度影像修復 High-Resolution Image Inpainting,https://arxiv.org/abs/1611.09969
(4)移位網 Shift-Net,https://arxiv.org/abs/1801.09392
(5)語境注意力的生成影像修復 Generative Image Inpainting With Contextual Attention,https://arxiv.org/abs/1801.07892
(6)基於部分卷積的不規則孔洞影像修復 Image Inpainting for Irregular Holes Using Partial Convolutions,https://arxiv.org/abs/1804.07723
(7)基於範例填充的影像修復 Exemplar-Based Image Inpainting(本競賽中考慮了兩種不同大小修復塊(Examplar Patch)的情況),http://www.irisa.fr/vista/Papers/2004_ip_criminisi.pdf
(8)用於影像修復的面片偏移量統計 Statistics of Patch Offsets for Image Completion,http://kaiminghe.com/eccv12/index.html
(9)Adobe 自帶的內容感知填充 Content-Aware Fill in Adobe Photoshop CS5
為完成人工處理,作者找到三位藝術家從每一組照片中隨機挑選照片來修復。為了鼓勵他們做出最好的結果,作者還告訴每位藝術家,如果他或她的作品超過競爭對手,將會酬金中增加 50% 的獎金。雖然實驗中並沒有規定嚴格的時間限制,但藝術家們都在大約 90 分鐘內完成了任務。
作者將三位專業藝術家的修復結果和自動修復方法的修復結果與原始的、未失真的影像(ground truth)進行了比較。比較使用的是 Subjectify.us (http://subjectify.us/)平臺(一個眾包主觀質量評價平臺,Crowd-sourced subjective quality evaluation platform)。這個平臺以成對的方式向參與者展示研究結果,讓他們從每一對中選擇視覺質量最好的影像。為了確保參與者做出深思熟慮的選擇,平臺還透過讓參與者比較真實影像和基於樣本的影像修復結果來進行驗證。共收集了來自平臺的 69215 名參與者的判斷結果。
以下是本次比較的總體和每幅影像的主觀質量分數:
圖 3. 藝術家和自動方法的影像修復結果主觀評價對比
從這個競賽的結果可以看出,藝術家們的表現在大多數照片中大大超過了自動方法。只在一種情況下有一種演算法擊敗了藝術家:用非神經網路方法(8、Statistics of Patch Offsets for Image Completion)修復的 “Urban Flowers” 影像比藝術家 1(Artist#1)繪製的影像排名更高。此外,藝術家修復的影像與原始未失真影像的效果不相上下,甚至看起來更好:藝術家 2(Artist#2)和藝術家 3(Artist#3)修復的 “Splashing Sea” 影像的質量分數高於 Ground truth,藝術家 3(Artist#3)修復的 “Urban Flowers” 影像的得分僅略低於 Ground truth。所以,在影像修復的任務中,人類還是遠勝於機器的。不過值得注意的是,在這個實驗中,參與者是藝術家,也就是說,是具備一定繪畫和藝術能力的人。對於普通人來說,他的修復能力就一定能比機器好麼?
在自動修復方法中,效果最好的是生成方法(5、Generative Image Inpainting With Contextual Attention),但也並不是一種壓倒性的勝利。從上面的對比結果也可以看出,這種方法在幾種照片中都沒獲得最佳分數。“Urban Flowers”和 “Splashing Sea” 的第一名分別是(8、Statistics of Patch Offsets for Image Completion)和(7、Exemplar-Based Image Inpainting),“Forest Trail”的第一名是(6、Image Inpainting for Irregular Holes Using Partial Convolutions)。值得注意的是,根據總體排行榜,深度學習方法的表現是優於非神經網路方法的。
我們可以從這個競賽中得到下述推斷:
對於影像修復 Image Inpainting 來說,由藝術家進行修復還是最好的選擇(圖中標註為紅色的條塊),機器的修復結果往往差強人意(圖中標註為藍色、綠色的條塊)。
對於一些特定的圖片,機器學習的方法也可以取得不錯的效果。但是 “特定” 的特徵和範圍是什麼?在這個競賽中還缺乏系統性、深入性的分析。所以這種 “特定” 對於實際應用還是缺乏指導作用的。
在這個競賽中,總體上機器學習的所謂 AI 方法要優於經典的影像處理方法(圖中標註為藍色的條塊)。不過對於一些圖片庫來說,經典方法仍然是有優勢的,AI 方法並沒有壓倒性的優勢。
機器學習方法對於輸入的掩模形狀是有嚴格要求的,這與它訓練 - 測試 - 應用的工作機制是分不開的。但是人類藝術家或經典方法就沒有這種問題,可以處理任意形狀的掩模,因此可以應用在多種實際場景中。
作者認為:這一領域的未來研究隨著可學習資料量增多、GPU 計算能力提高和記憶體的增長將使得深度學習演算法可能會超越傳統的競爭對手,並給出與人類藝術家可以媲美的影像修復結果。然而,作者還是強調,鑑於目前的技術水平,對於 Image Inpainting 來說,選擇一種經典的影像或影片處理方法可能比僅僅因為它是新鮮事物而盲目地選擇一種機器學習方法要好。
2.2 文字生成能力對比(A/B testing OpenAI's GPT-3)
這是一場人類生成文案(Copyright)和由 OpenAI 的 GPT-3 API支援的 VWO 生成的文案之間的競賽。
競賽地址:https://vwo.com/ab-testing-openai-gpt-3/
在這場競賽中,將測試人工智慧生成的標題、按鈕或產品描述文案,與現有(或新的)參與網站的人類生成的書面文案進行對比。測試可以在 VWO 或參與者自己使用的任何 A/B 測試平臺上進行。在這個競賽中機器使用的方法就是 GPT-3,而對人類並沒有特定限制,可以是任何參與者。
VWO 已經將 OpenAI 的 GPT-3 整合到它的視覺化編輯器中,這使得任何人都可以很容易地使用它生成任何語言的文案。這項功能提供給了競賽網站,為比賽提供了 A/B 測試。所以,小夥伴們都可以到網站上來試試。
目前已經給出的競賽結果如下圖。在 18 份有效參與競賽中,有 1 項明確人類生成的文案勝過 AI 生成的文案,有 3 項則是判定 AI 獲勝,還有 3 項判定是雙方平手,其餘 11 份則暫無打分(含一項還未最終完成)。
圖 4. 文字生成競賽結果
人類生成文案獲勝的案例是 Booking.com 網站的競賽作品(紅色框,生成 button 的文案)。具體的人類生成的文案見圖 5,AI 生成的文案如圖 6。人類生成的文案 Human Copy 1 贏得了這次比賽。展示出的是模糊的螢幕截圖以掩蓋酒店的身份。
圖5
圖 6. Booking 網站人類生成的文案
圖 7. Booking 網站 AI 生成的文案
AI 獲勝的文案有三項,我們選擇了 Schneiders 的一項實驗進行展示(紅色框,生成標題的文案)。人類生成的文案如圖 8,AI 生成的文案如圖 9。我們直觀的感受是,AI 生成的標題將 Shop Now 放在最前面,給人的目標性感受更強,更有效。
圖 8. Schneiders 人類生成的文案
圖 9. Schneiders AI 生成的文案
從這個競賽的結果可以看出,在文字生成這個領域,藉助於強大的 GPT-3,AI 在實驗環境中更勝一籌。當然,競賽組織者並沒對 AI 獲勝做任何系統性、深入性的分析,僅僅是將參賽者的結果進行了展示和統計。我們認為,AI 獲勝一方面是因為文字生成的先驗資料庫、預訓練模型規模是非常大的。另一方面 GPT-3 等文字生成的演算法 / 模型也是相對成熟的,屬於 AI/ML 較早在實際場景中應用的方法。最後,參與實驗的人類並沒有特定的要求,例如對文字撰寫、新聞宣傳、行業背景有特殊的限定,所以人類生成的文案水平並不是很高。如果對參與者的行業身份、知識背景有所限定,會不會能夠提升人類生成文案的水平呢?不過,不管怎樣,文字生成領域的 AI 還是展現出了非常高的應用水平和價值。
3 Humans 與 SML(Supervised Machine Learning)
這項工作關於一個學習曲線描述任務,擬解決的是在小樣本量的前提下完成二進位制分類任務時人類和有監督機器學習模型的學習曲線有哪些不同。具體的工作分析和結果在文獻 [3] 中,並以預印的形式釋出在 arxiv 中(https://arxiv.org/abs/2012.03661)。
學習曲線(Learning Curve)描述的是基於經驗的任務表現。在該例子中,經驗是由訓練資料(Training Data)的數量來衡量的,更準確地說,是由訓練例項(Training Instances)的數量來衡量的。任務表現受兩個主要因素影響:執行任務的實體(人或機器)的特徵和任務本身的特徵。對於該競賽中的監督式機器學習任務(Supervised Machine Learning,SML)來說,有四個任務特徵很重要:輸入、輸出、例項和特徵。
輸入。輸入描述了任務所依據的資料。它可以按資料型別(例如,數字或二進位制)和資料表示方式(例如,表格、圖片或音訊)來區分。
輸出。一個任務的需求產出也是不同的。在這種情況下,有兩種型別的輸出是相關的:分類和迴歸。分類確定每個例項是否屬於預定的類別之一,而回歸的結果是一個連續的數字。
例項。可供學習的例項數量。
特徵。一個任務的例項由一定數量的不同特徵來描述。
作者選擇了一個以二進位制作為輸入、二進位制分類作為輸出,包含一小組訓練例項和有限數量特徵的任務。具體任務特徵和實現方式見表 1。
表 1. 相關任務特徵概述及其在本工作中的執行情況[3]
作者使用智慧測試領域的兩個測試任務作為具體實驗基礎,即最小智慧訊號測試(Minimum intelligent signal tests,MISTs)和 Raven 的漸進矩陣(Raven's progressive matrices, RPMs)。MISTs 是用來量化人類人格(Humanness)的二進位制問題。與其他智力測試相比,這些問題不需要複雜的答案,只需要簡單的" 是 "或" 否 ",這就滿足了對二進位制輸出的限制。然而,輸入的是自然語音,而不是一組幾個、二進位制特徵。
RPM 是一個關於由規則設計的視覺幾何物件的測試。任務是透過從六個或八個選項中選擇一個物件來完成一組視覺幾何物件,其中,只有一個可選擇的物件符合規則。如圖 10 的示例,RPMs 有一個圖形化的表示方法,可以將其簡化為一組帶有一些二進位制特徵的例項,從而得到標準化的例項。但是,這項測試不具備二進位制輸出。透過結合這兩個測試,我們得出以下任務:
為了獲得相同數量的特徵,只使用 3x3 矩陣,有 9 個元素(=9 個特徵),每個特徵都是二進位制的。據此,有一組 2^9 =512 個二元矩陣。這些矩陣可以顯示為黑白元素的圖片(對人類而言),也可以顯示為特徵為 1 和 0 的數字列表(對機器而言)。圖 10 給出了同一個例項分別對人類和機器進行表示的例子。
圖 10. 具有 x1 至 x9 特徵的例項的人和機器示意圖
根據關於特徵值的規則,我們可以對矩陣進行分類。一些例項 (矩陣) 符合規則,因此它們被標記為真,而所有其他不符合規則的例項則標記為假。作者將四種基本模式作為分類任務的四條規則。
對角線(Diagonal)。符合對角線規則的矩陣至少有一條對角線,標為黑色,或者從左上角塊開始一直到右下角塊結束,或者從左下角塊開始,到右上角塊結束。
水平的(Horizontal)。符合水平規則的矩陣至少有一排水平的黑色元素。
數字規則(Numbers)。如果總共有五個元素被標為黑色,則滿足數字規則。
對稱性(Symmetry)。對稱性描述的是軸對稱性,可以是對矩陣中間列的軸對稱性,也可以是對矩陣中間行的軸對稱性。
設計一個多回合遊戲以生成 一個符合特定規則的學習曲線。在遊戲過程中規則不會改變。在遊戲開始時,玩家收到訪問 5 個標記的例項(訓練資料)。確保每個例項被標記為正值的機率為 50%(相應地也有 50% 被標記為負值),以根據所選規則來考慮資料集中正值和負值標記例項的不平衡的問題。此外,玩家還收到 5 個未標記的例項(測試資料),這些例項必須根據從標記的訓練例項中得出的知識進行標記。如前所述,每個例項被標記為正的機率仍為 50%。然後,我們用準確度量來衡量測試資料的效能,準確度量表示為正確標註例項的數量除以標註例項的總數量。
由於在我們的工作中,標籤只是一個二進位制決策,準確度指標為 "1" 則表示標籤 100% 正確,而準確度指標為 "0.5" 則相當於隨機猜測,標籤是隨機分配的。五個例項的標籤準確率代表了第 r 輪的表現。在第二輪中,先前標記的例項消失,生成五個新的、未標記的例項(新測試例項),總共有 10 個標註的例項可用於訓練。訓練中對 5 個新的未標記的例項進行標記,具體圖 11 進行了詳細描述。在每個遊戲中,標記和未標記例項的順序是隨機的。然而,一個矩陣(例項)只會是訓練資料或測試資料的一部分,而不會同時是兩者。學習曲線是根據每一輪的表現生成的。
圖 11. 人類 X=10 輪、機器 X=20 輪的實驗過程
人類的實驗是透過研究不同環節的參與者進行的,這些人是在沒有任何事先知識的情況下單獨參加實驗的,因此參與者並不是根據特定知識背景、行業能力等進行篩選的。不過,事先他們會得到一份關於實驗總體目標、使用者介面佈局和一些抽象例子的標準化介紹。每位參賽者參與四場遊戲,有可能玩遍四種規則。每場總輪數為 10 輪,也就是說,參賽者總共會看到 50 個標籤例項,在一局遊戲中,有可能需要他 / 她給 50 個例項貼標籤。在完成一個遊戲後,參與者不會收到任何關於他 / 她表現的反饋,這就保證了每輪遊戲的獨立性。圖 12 是用人類進行規則對稱性實驗的 GUI 例項。
圖 12. 規則對稱性(Symmetry)的第 2 輪人類的實驗截圖。上方顯示 10 個訓練例項,下方則是未標記(測試)的例項
作者選擇了三種機器學習演算法驗證 AI 的效能:邏輯迴歸、決策樹和神經網路演算法(MLP)。為了增加可比性,在每一個遊戲中應用每一個演算法時模型的數量與玩遊戲的人類數量相同。該演算法只對一個遊戲進行例項化,並且在每一局遊戲結束後都會被終止,這樣就不會使用之前遊戲的知識。具體針對四種規則的四種任務完成結果見圖 13 - 圖 16。
關於規則“對角線”(圖 13),決策樹的表現優於所有其他機器學習模型和人類參與者。不過,在前 50 個訓練樣本中,決策樹的效能與人類相比並沒有明顯改善。從第 55 個訓練樣本開始,決策樹在 50 個例項中的表現明顯優於人類。相比之下,MLP 和邏輯迴歸與人類相比則表現是差不多的。因此,總的來說,機器學習的方法 / 模型在 50 個訓練例項中的表現並沒有明顯優於人類,但稍好於人類。
關於規則“水平”(圖 14),人類在前 50 個訓練樣本中的表現明顯優於機器學習模型。隨著提供給機器學習模型學習的訓練樣本越來越多,從第 55 個訓練樣本開始,50 個例項的人類和 55 個例項的機器的效能已經沒有顯著差異。在圖 14 的競賽結果中,人類和機器學習的效能相差不大,只是最後邏輯迴歸的效能會有所下降。
關於規則“數字規則”(圖 15),人類的表現是最好的。從 15 個訓練樣本開始,人類的效能始終在 90% 以上,而三種機器學習模型的準確率沒有任何改進。在整個 100 個訓練樣本中,機器學習模型準確率一直保持在 "0.5" 左右。因此,在所有輪次的實驗中,人類和機器學習模型之間的效能差異是顯著的,這從圖 15 中也可以很直觀的看出來。
關於規則“對稱性”(圖 16),與數字規則的表現類似,人類的表現優於機器學習模型。在有五個訓練樣本的情況下,人類的效能明顯更好。之後,隨著訓練樣本的增多,人類的效能比機器的效能提高的更多,並且差異變得非常顯著。然而,人類效能在 20 個訓練樣本後達到了其準確率的最大值,低於 0.9,並保持在這一水平上。而 MLP 和決策樹的準確率在每一輪都略有提高。
圖 13. 規則 Diagonal 的人類和機器學習效能比較
圖 14. 規則 Horizontal 的人類和機器學習效能比較
圖 15. 規則 Numbers 的人類和機器學習效能比較
圖 16. 規則 symmetry 的人類和機器學習效能比較
由該競賽的結果可以看出,除了對角線規則(Diagonal)中機器學習的效能略強於人類的效能,在其它分類任務中,人類的效能都優於機器學習模型。尤其是人類在看了幾個學習樣本之後就學到知識,在大部分測試下學習速率都很快。在這個競賽中,選擇的是有監督機器學習方法,因此,隨著訓練樣本的增多,機器學習方法的效能會不斷提升。而在訓練樣本數量很少時,機器學習方法的效能是非常差的。另一方面,機器的效能也受到任務複雜度的影響。在對角線這種規則簡單的任務中,機器學習能獲得不錯的效能,但對於複雜的分類任務,機器學習模型的效能還是比人類差得多。對於人類來說,這四種規則都是很簡單的,因此,並不需要有很好的行業或知識背景的特定人類來完成任務。
4 IQ Test 能力對比 [4]
這項工作關於一個 IQ 測試任務,用以比較人類和 Q-learning(一種流行的強化學習演算法)的能力。詳細的工作分析和結果介紹見文獻[4],已經發表在 AGI 2012 中。與上一節的競賽內容類似,這個 IQ Test 的競賽解決的也不是實際應用問題,而是完成一個人工生成的邏輯任務。
在一般智力測試中,選擇一個合適的環境類(Environment Class)是一個至關重要的問題。例如,可以引入一個無偏的環境類(記為 Λ),其空間和 Agent 具有普遍的描述能力(圖靈完備)。這種環境將空間視為一個具有不同(且可變)拓撲結構的行動圖。可以使用圖靈完備語言引入物件和 Agent 以生成它們的動作。獎勵是區間 [-1,1] 中的有理數,由兩個特殊的 Agent :Good 和 Evil 產生,它們會在它們訪問的單元格中留下獎勵。除了獎勵的符號外,Good 和 Evil 的行為模式相同(Good 為 +,Evil 為 -)。
空間的生成首先要確定單元格的數目 n_c,由 2 至 9 之間的數字給出,使用幾何分佈和一元編碼(即 prob(n)=2^(-n),並歸一化為 1)。同樣,行動數 n_a 的定義是在 2 和 n_c 之間均勻分佈。單元和動作都用自然數進行索引。有一個特殊的動作 0,它將每個單元與自己連線起來(它總是可以停留在單元)。透過一個動作可以從另一個單元格進入的單元格稱為近鄰或相鄰單元格。單元格之間的連線是透過對每一對單元格和動作使用統一的分佈來建立的,它為每一對單元格指定了目的單元格。
圖 17 給出了一個隨機生成空間的例子。圖 17 中空間的序列例項為 201210200,即執行動作 a_2、a_0、a_1、a_2 等。例如,考慮 Good 被放置在 c_5 單元中。由於圖案以 "2" 開始,Good 將 (透過 a_2) 移動到 c_1 單元。兩個 agent Good 和 Evil 從序列中取出一個動作,並在每一步中執行它。當動作用完後,該序列將重新開始。如果某一行動在某一單元不被允許,則 Agent 不移動。
圖 17. 一個有 5 個單元格和 3 個動作(a_0, a_1, a_2)的空間,反射動作 a_0 未顯示
最初,每個 Agent 被隨機(使用統一分佈)放置在一個單元中。然後,我們讓 Good、Evil 和被評估的 Agent 在一定的步數 m 內進行互動,稱之為一個練習 exercise(或情節 episode)。對於一次練習,我們將獲得的獎勵進行平均,所以給出環境中 Agent 的得分。測試過程是由一連串的練習或情節組成的。我們將使用 7 個環境,每個環境都有 3 到 9 個單元格(n_c)。Good-Evil 模式的大小將與單元格的數量成正比,使用 p_stop= 1/n_c。在每個環境中,我們將允許 10x(n_c-1)個步驟,這樣 Agent 就有機會發現環境中的任何模式,也有可能利用一些進一步的步驟來利用這些發現。表 2 給出了測試任務的控制指標。
表 2. 組成測試的 7 個環境的設定
在該競賽中,作者選擇 Q-Learning 作為 AI 方法,Q-Learning 是一種經典的增強學習方法。而參與競賽的人類這是從某大學系部抽取的 20 名年齡在 20-50 歲之間的人類(博士生、研究人員和教學人員)。為了使人類完成任務,在設計人類互動介面時考慮到了以下原則:i)用於表示觀察結果的標誌對受試者來說不應該有隱含的意義,ii)行動和獎勵應該容易向受試者解釋,以避免額外的認知開銷。人類互動介面的示例見圖 18,具體的程式碼可下載 http://users.dsic.upv.es/proy/anynt/human1/test.htm。
圖 18. 人類的互動介面快照。
Agent 剛剛獲得了一個積極的獎勵,用圓圈與向上的箭頭顯示。圖中還顯示 Agent 位於第 3 單元格,Evil 和 Good 分別放在第 2 和第 3 單元格。Agent 可以移動到單元格 1 和單元格 3。單元格 3 被高亮顯示,因為滑鼠指標在它上面
作者分別對人類和 Q-Learning 完成了 20 個測試(每個測試有 7 個練習),其設定如表 2 所示。關於 Q-learning 結果的平均值如圖 19 所示。Q-learning 的總體均值為 0.259,而人類的均值為 0.237,標準差分別為 0.122 和 0.150。
圖 19. Q-learning(左)和人類(右)的(20 x7=)140 個練習的直方圖,線條顯示的是機率密度
為了更詳細地看到練習的結果,圖 20(左)顯示了按練習彙總的結果(每個數字都有一個練習),具體包括每個練習的 Q-learning 和人類完成任務情況的平均值、中位數和散度。觀察每個空間大小的曲線圖,我們還可以看到,Q-learning 和人類在 7 次練習中的表現並沒有顯著的不同。圖 20(右)為 20x7x2=280 個練習的平均獎勵結果。人類比 Q-learning 有更高的離散性。這可能是由於 20 個人類是不同的,他們的能力各有不同,而 Q-learning 在 20 個測試中的每一個演算法都是完全相同的,他們的能力是相同的。
圖 20. 左圖:不同 Agent 的七次練習的箱形圖。
中位數在方框中顯示為一個黑色的短段。均值由 Q-learning 的連續線和人類的虛線進行連線。右圖:20x7x2=280 個練習的平均獎勵結果,使用 Kapprox 作為複雜性的衡量標準
由該競賽的結果可以看出,人類和 AI 在完成 IQ-test 的時效能幾乎沒有差別。在這項任務中選擇的人類都是高校的教職員工,都有較強的知識背景和邏輯分析能力,使用的 Q-learning 就是標準的模型和引數。作者也表示,這樣簡單的實驗條件和設定並不能真正反映出人類和 AI 誰的能力更強,競賽的結果並不能說明人類獲勝,或者 AI 最終獲得了勝利。
小結
在這篇文章中,我們討論了一個非常有趣的問題,即 Human vs AI,在不同的任務中人類的學習能力和機器的學習能力究竟哪個更勝一籌?在每天面對大量的演算法、模型、調參、應用的論文,不斷關注新突破的各類演算法大賽、資料探勘大賽、影像識別、機器學習預測、風險使用者識別競賽等等的同時,考慮這樣一個問題,無疑是發人深思的。
我們列舉了四個競賽,其中兩個是針對常見的程式類應用的,包括影像修復 Image Inpaiting 和文字生成,另外兩個則是簡單的人工生成的邏輯推理問題。從我們給出的實驗結果可以看出:
對較為複雜的任務,例如影像修復、複雜邏輯規則推理等,機器的學習能力還遠不能與人類相比。
對於一些簡單的邏輯問題,例如簡單的 IQ Test,利用強化學習的機器模型已經能獲得與人類媲美的能力。
在文字生成領域中,依賴於長期的研究積累,擁有大量的標註資料、預訓練模型等,並在多個領域中有成功的應用模型,利用超多引數的 GPT3,目前,已經能夠在一些場景中獲得與人類相匹敵、甚至勝出的文字生成能力。但是,在一些對語言能力要求較高的場景中,例如我們在文中給出的 Booking.com 網站的場景中,AI 生成的 Button 文字仍不如人類生成的精準。人類對於語言的掌控和使用能力,特別是反應特殊意圖的啟發式、暗語式表達能力,目前,並不是機器能夠 “學習” 到的。
對於有監督的機器學習方法,資料數量直接影響了機器 “學習” 的效果。如文中給出的四條規則的分類任務,機器學習模型的效能一般都在 50 個訓練樣本後實現提升。
當然,正如我們開頭所提到的,目前這些競賽、比對實驗都是單一的、小範圍的,缺乏系統性、深入性的研究和分析,任何一個結果都不能推導得出 “人類一定勝過機器” 或“機器勝過人類”的結論。而下一步我們如果可以透過嘗試構建更通用的、更普遍的人機對抗 (Human vs AI) 測試競賽,為人與機器能力的評估提供了有價值的資訊來源,或許可以引導 AI、ML 向更有利、更有益的方向發展。
本文參考引用的文獻:
[1] Hernandez-Orallo, J., 2017b. The measure of all minds: evaluating natural and artificial intelligence. Cambridge University Press.
[2] Bertalmio, M, Sapiro, G., Caselles, V., Ballester, C. Image Inpainting. SIGGRAPH 2000, pages 417-424.
[3] Niklas Kühl,Marc Goutier,Lucas Baier,Clemens Wolff,Dominik Martin, Human vs. supervised machine learning: Who learns patterns faster? https://arxiv.org/abs/2012.03661.
[4] Insa-Cabrera, J., Dowe, D.L., Espana-Cubillo, S., Hernandez-Lloreda, M.V., Hernandez-Orallo, J., 2011. Comparing humans and ai agents, in: International Conference on Artificial General Intelligence, Springer. pp. 122-132.
關於機器之心全球分析師網路 Synced Global Analyst Network
機器之心全球分析師網路是由機器之心發起的全球性人工智慧專業知識共享網路。在過去的四年裡,已有數百名來自全球各地的 AI 領域專業學生學者、工程專家、業務專家,利用自己的學業工作之餘的閒暇時間,透過線上分享、專欄解讀、知識庫構建、報告發布、評測及專案諮詢等形式與全球 AI 社群共享自己的研究思路、工程經驗及行業洞察等專業知識,並從中獲得了自身的能力成長、經驗積累及職業發展。
感興趣加入機器之心全球分析師網路?點選閱讀原文,提交申請。