圖靈測試已OUT,這才是測試AI的更佳方法
編者按:本文作者Jacob Aron 在一個人工智慧當過評審,當時的參與者普遍表現不佳。他當時就覺得,還不如用面部識別或者撲克技巧測試來得方便一些。
[caption id="attachment_4180" align="aligncenter" width="800"] 機器人內心獨白:這到底是樹還是花椰菜?傻傻分不清(圖片:Reuters/Gleb Garanich)[/caption]
上週六我在布萊切利園參與了一場智慧碰撞的活動,話說布萊切利園可是一個莊重的好地方,二戰時候這裡聚集了一批英國的密碼破譯員。而我作為評審很榮幸地參加了正在舉行的一年一度的羅布納獎(Loebner prize)比賽,主題是「機器是否具備人類的思考能力」。這題目聽起來已經不新鮮了,不過不可否認的是,在某些領域,機器的確在以驚人的速度趕超人類。
布萊切利園對這一議題來說是個很合適的比賽場地:整場比賽都是基於數學家和計算機技術先鋒阿蘭·圖靈曾經提出的測試「COMPUTING MACHINERY AND INTELLIGENCE 」。眾所周知阿蘭·圖靈在整個二戰期間把心血都貢獻在了破譯納粹密碼上。他曾經提出這樣一個假設:如果機器可以愚弄一個人類認為他也是同類,那麼就代表機器也具備思考能力。
回到Loebner prize,四個人類評審各坐在一臺電腦前,將同一組測試題分別分配給遠端的一臺機器和一個真實人類回答。在25分鐘的有限時間內,評審需要根據回答來分辨出誰是機器人,誰是人類,然後才可以繼續測試下一對人/機器。
評審時,我幾乎在分秒間就可以分辨出誰是機器誰是人類。其中一個機器試圖誘騙我說,如果我承認它是人類就把獲獎獎金與我對半分。另一個則直接說自己是宇宙飛船載來的外星人。顯然這些伎倆對我派不上用場。反之,人類參賽選手卻總能從最簡單的問題中彰顯出自己的人類特性,比如天氣啦,周遭的環境啦,而機器不然就是徹底忽視這些,不然就是完全搞錯了用力的方向。
最後當然四個評委都沒有被機器愚弄過去。然後,就像歷史上的每一屆Loebner prize一樣,表現最佳者贏得了一枚銅質獎牌。那麼,我們有更接近真正的人工智慧一些嗎?
一直以來,圖靈測試最大的爭議就在於,究竟怎樣才算通過了測試。圖靈曾在1950年做出預測,到了21世紀,機器將可能具備通過30%測試題的能力。有些人就自以為是地解讀為這是機器能夠愚弄評審的程度。去年也有這麼一個熱度新聞:在倫敦英國皇家學會,有人宣稱一個聊天機器人通過了圖靈測試。但另一些人則視50%的正確率為通過標準。
但是就算有那麼一個機器人在上週成功地愚弄了我們,也絲毫不能說明他的智慧程度。這是因為實驗的結果很大一部分也取決於評審自己的水平和發問技巧。而這些都會影響測試的最終參考價值。
從結果上來看,大部分的AI研究人員也早就拋棄了圖靈測試轉而採用更可靠的方式去測試機器。近年來,計算機演算法在某些領域的能力已經開始與人類比肩甚至超越了人類。
「我把時間都花在教計算機識別視覺圖案上了,因為我覺得比起圖靈測試,這才是通往人工智慧的捷徑。」馬塞諸塞州大學的Erik Learned-Miller說道。他是LFW(Labeled Faces in the Wild)人臉識別資料集背後的成員之一。LFW至今已經通過網路收集了超過13,000張人臉圖片與對應資訊,業已成為人臉識別演算法的標準資料庫。
感謝深度學習和人工神經網路對硬體和軟體的巨大推動,使得這一領域的研究如今正在突飛猛進。AI技術正在試圖模仿人類的腦部神經迴路構造。去年Facebook公佈了其DeepFace 演算法的細節,並在LFW資料庫進行面部識別後取得了97.25%的精確度,比人類的平均辨識度97.5%只低了一點。
「走到現在,人們開始明白這才是正確的道路。」 Learned-Miller說道。他還認為,這拉開了業界大鱷們軍備競賽的序幕。今年Google的FaceNet 系統也取得了99.63%的高分——看起來比人類都厲害了不少。不過Learned-Miller認為這事不能單從資料去看。機器現在還是無法準確地捕捉人類的動態形象。不過距離也在漸漸拉近。
除了LFW,大鱷們也在一個叫ImageNet的資料集上測試他們的面部識別演算法。越來越多的圖片資料被收集用做測試。他們都急切地渴望在「大規模視覺識別挑戰賽」(Large Scale Visual Recognition Challenge)中獲勝。為了今年的比賽,微軟已經提前公佈了取得歷史新高的最新演算法的成績:95.06%——也還是隻比人類領先一點點(人類在ImageNet上的平均成績是94.9%——譯者注)。
但是競賽的組織者之一,卡內基梅隆大學的Olga Russakovsky指出,資料庫的資料有限,演算法實際上只是從1000個種類中辨認出正確的面孔。相對人類來說,這一成就實在小的可憐。「就算你能準確辨認出所有的物件,也離建立一個有智慧的機器相差甚遠。」她說道。要展現真正的智慧,機器必須能推斷出影像所處的環境,並預測圖片拍攝1秒後的情景。
機器顯然也需要培養這樣的綜合能力。當人類需要在掌握資訊不完全的情況下做出決定時,我們會先推測別人的選擇。AI也能這樣做嗎?「撲克牌已經成為在資訊不全的情況下判定智慧程度的標尺。」同樣來自卡內基梅隆大學的 Tuomas Sandholm說道。
對於機器來說,由於撲克的眾多不確定性使得它比下象棋還要難,而在象棋領域機器早已立於不敗之地。一月的時候,加拿大阿爾伯塔大學的一個小組釋出了機器如何在撲克牌遊戲中擊敗所有人類對手的詳細資料,但也寫明,這隻在較為簡單的撲克規則之內才成立。
正式的撲克遊戲中,人類還是佔盡優勢。不過幾個月前Sandholm帶領他的機器對戰一組專業撲克選手,只以細微差距惜敗。「至少99.9%的人類都比我們的計算機撲克程式要差,」他說。這種比賽相對於圖靈測試也是一個進步。「我更喜歡這種測試,因為他不是讓計算機去偽裝AI,計算機真的要具備一定智慧才能打敗人類。」
那麼圖靈測試還有一線生機麼?人工智慧與仿生機器社會學專家,同時也是也是Loebner prize管理者之一的 Bertie Müller說,「舉辦這一比賽的部分原因就是不想忘記傳承。圖靈如果還活著的話,他自己現在也不會覺得圖靈測試是最好的方法。」更好的測試能幫助我們觀察AI在多樣環境下的反應。這有點像把一個初學走路的孩子放在滿是玩具的房間,然後觀察它會做什麼。
「對於智慧機器的看法已經發生了變化。為了建立智慧機器,我們想要先為機器建立一些更廣泛的基本技能。」Learned-Miller說,「我認識的所有相關領域研究者都同意,一個真正的智慧機器將有能力通過視覺識別技術去了解現實世界,而不僅僅是被限制在幾段互動對話中。但要將所有尚未摸透的碎片化細節整合出一個真正的智慧機器,我們還有很長很長的路要走。」
機器之心編譯出品。來自New Scientist。作者Jacob Aron。翻譯,xiaoxi。校對,汪汪。
相關文章
- 測試—測試方法
- GPT-4 透過圖靈測試GPT圖靈
- 【黑盒測試】測試用例的常用方法
- 測試測試測試測試測試測試
- 測試用例和測試方法
- 黑盒測試、白盒測試與灰盒測試方法
- 測試圖
- 測試方法
- 讀人工智慧全傳02圖靈測試人工智慧圖靈
- 歷史的遺珠:圖靈測試與人工智慧圖靈人工智慧
- 90%測試工程師不知道的測試方法工程師
- 眼圖測試(硬體測試 訊號完整性測試)
- 未來已來,人工智慧測試勢不可擋:介紹9款AI測試工具人工智慧AI
- MYSQL 效能測試方法 - 基準測試(benchmarking)MySql
- 公式推匯出創意,阿里媽媽“AI智慧文案”通過圖靈測試!公式阿里AI圖靈
- 醫學AI過不了圖靈測試?卻讓肥胖症患者懷疑人生…AI圖靈
- 提升軟體測試效率與靈活性:探索Mock測試的重要性Mock
- 一種新的UI測試方法:視覺感知測試UI視覺
- 測試laravel commands的方法Laravel
- 測試用例的方法
- 軟體測試的方法
- AI測試101:測試AI系統的實用技巧&ML和AI自動化工具AI
- Hadoop測試常見問題和測試方法Hadoop
- 單元測試如何測試私有方法_1
- 這是個測試
- 軟體效能測試有哪些測試方法?靠譜的軟體測試公司推薦
- 用「圖靈測試」檢驗AI尤其是大語言模型,真的科學嗎?圖靈AI模型
- 測試已死,我看未必
- 訊號質量測試的最佳選擇!眼圖測試!
- Junit 4 測試方法
- python+pytest介面自動化之測試函式、測試類/測試方法的封裝Python函式封裝
- python+pytest介面自動化(11)-測試函式、測試類/測試方法的封裝Python函式封裝
- .netcore持續整合測試篇之測試方法改造NetCore
- 軟體安全測試有哪些方法?在哪裡測試?
- 持續測試效能的方法
- 測試測試用
- 測試——水杯的測試用例
- Laravel 單元測試實戰(4)- 測試成功後的方法重構並再次測試透過Laravel
- 功能測試、自動化測試、效能測試的區別