看到“雙節”期間中國有5.5億人出行的新聞，我不由得虎軀一震。想到了人會多，但沒想到會這麼多!看來大家都充滿了探索欲，希望在難得的假期去往自己熟悉或未知的地方。

就算你選擇了“家裡蹲”，也一定會通過網上衝浪、閱讀遊戲等方式，來探索自己的內心世界。

探索是人類的本能，從嬰兒時期開始，好奇心就驅動著我們去探索並理解自己所在的世界， AI的成長則離不開對人類的觀察與模仿，其中，就包括探索的能力。

這種能力被演算法掌握之後，出現了阿爾法狗打敗人類棋聖，也出現了OpenAIFive——在電子遊戲領域完虐人類玩家。不過即便如此，人類的探索能力依然令最高階的AI都望塵莫及。

比如嬰兒可以從爬行和探索中學會認知三維空間，而一些計算機視覺還總被曝出被平面照片所欺騙過去的新聞，上馬更高效能的3D視覺演算法則需要耗費巨大的算力資源，從這個角度看，人腦無疑在效果和效率上都碾壓了AI。

那麼，能不能引入兒童的學習能力，來實現更聰明的AI呢?這個猜測，就像是“把愛因斯坦的大腦給我我也能拿諾貝爾獎”一樣，是一個有點鐵憨憨，又有點重要的問題。

5歲小孩碾壓AI，“玩”就夠了

大家不妨在假期做一個生活觀察，看看小孩子們是如何探索世界的?

如果一個玩具看起來有很多玩法，但他們不知道哪一個是正確的，小孩子們會進行假設驅動的探索，如果“假設”失敗了，他們就會轉向新的玩具。

有研究顯示，一個11個月大的嬰兒，在看到許多違反物理定律的現象時，會忍不住對其進行更多的探索，甚至會做出一些違規行為來實踐自己的假設。

比如看到一輛漂浮在空中的汽車，有點顛覆以往的認知了，你會怎麼做?嬰兒會選擇將玩具砰地扔到桌子上，想知道這種“不合常理”的情況是怎麼出現的(所以阻止熊孩子弄壞你手辦的唯一辦法，就是根本不要讓他們看到它們)。

這種“不見黃河心不死”式的自由探索，有時會令家長和大人們不堪其擾，但抽象化的“假設”能夠讓人類做出大量預測，想象出許多新的可能性，不僅是一種極為有意義的學習方式，更是人類創造力的由來。

不過就像小王子覺得枯燥的大人們看不到“蟒蛇肚子裡的大象”一樣，令人遺憾的是，這種探索能力是幼兒的專長，大部分情況下只存在在5歲以前，這也讓他們成為宇宙中最好的學習者。

既然兒童行為如此有參考意義，科學家們自然也想得到。事實上，兒童發展學對AI的進展起到了重要的方向牽引作用。

科學家們曾將好奇心引入神經網路，打造了深度增強學習，通過獎勵反饋來鼓勵智慧體(agent)主動探索和理解環境，更新模型引數。這讓AI能夠自主獲得技能，在電子遊戲等需要通用智慧的複雜場景中能夠做出自己的決策，而不是人類預先通過龐大的標註資料集給定答案。

其他型別的兒童行為亦有價值。前面提到的“不見黃河心不死”的探索，就被化作深度優先搜尋策略，DeepMind和加州大學伯克利分校的研究人員，開發了一個3D導航和解謎環境。智慧體(agent)沿著特定路徑進行探索，如果遇到死衚衕，那就回去找到下一條沒有探索過的道路，繼續前進。

聽起來是不是很像小孩子走迷宮的遊戲?這能讓智慧體接觸到各種各樣的經驗，在資訊較少的環境中工作;減少對資料量的依存，改變目前算力資源緊張的局面，讓許多小資料、少樣本的領域(如金融、醫療)也能實現智慧化。

將兒童探索行為應用於AI，一切都能變得更好，理想層面上確實如此，但現實總喜歡跟科學家們開玩笑，也算是給人類保留了一個“殺手鐗”吧。

AI能力暴漲的當下，人類為什麼還能穩坐智慧王座?

需要注意的是，這些類似兒童探索的策略，通常更多被用在訓練期間提高代理人的經驗值，而不是在決策時支援快速學習和探索。用人話說就是“懂得了許多道理，卻不一定能過好這一生”，因為一到關鍵選擇時刻就會掉鏈子。

就拿前面提到的深度優先搜尋(DFS)來說，科學家們發現，如果讓孩子們自由探索，那麼他們與智慧體按DFS做出的行動有90%的相似，而以目標為導向(找到橡皮糖)來探索的話，有96%的路線都是相似的。但不同的是，探索越多的孩子，最後能花費更少的時間完成任務，智慧體卻相反。

如果智慧體發現一個地方很有趣(能得到獎勵)，就會一直重新訪問該區域，直到它終於終於終於覺得那裡不再有趣了，這會導致其概括性不佳(無法形成最佳策略)。

其中的差別就在於，孩子不是被動地孤立學習或由目標驅動，而是在不斷實驗和收集資訊，將自己的認知和經驗與獲得的資訊結合起來，編織出一個豐富的世界模型。而即使最複雜的機器探索方法，也只能為特定的目標服務，一時半會還無法完美匹配這個充滿了各種“意外”的真實世界。

為什麼有了一定的探索能力，AI智慧體的表現還是不盡如人意呢?

首當其衝就是實驗室與現實環境的巨大不同。

深度強化學習過去都是“機上談兵”，不是跟人類在二維遊戲裡PK，就是數字網格里下棋，而兒童的探索則是發生在資訊豐富的三維現實世界之中，許多潛在因素很難被應用到實驗中。

這也是為什麼，當今最強大的AI智慧機器人也達不到一個僅小學畢業的優秀人類服務員的工作能力，能像他們一樣快速適應環境、完成各種複雜任務。

此外，兒童的發展心理學研究很難在AI產業鏈中形成“閉環”。要真正激發AI生長出服務現實的能力，不僅要構建出具有更強探索能力的智慧體，還要繼續學習人類的認知能力，推進人工智慧自身的理論創新和軟硬體升級(比如搭建三維訓練環境)，這一系列鏈式突破，才能最終將技術構想轉化為現實生產力。“大力出奇跡”的深度學習，其高光時刻就是這麼來的。

沿著這個方向，我們可以進一步瞭解，怎樣才能彌合智慧體與人類之間的差距。

下一代AI，逐漸浮出迷霧的真實未來

在過去的數年裡，深度學習做到了傳統演算法所無法企及的進度，催生了大量的工業界應用，但其實，現在的深度學習還是很傻——舉個例子，大部分人都可以通過幾十個小時的學習學會開小汽車，而完全自動的L5級無人汽車至今還是個遙遠的夢。

圖靈獎得主Geoffrey Hinton就一直非常渴望找到一種新的實現深度網路的方法，認為目前(最廣泛的反向傳播演算法)根本不是大腦的工作機制。

另一點陣圖靈獎得主Yann Lecun，就認為在某些遊戲中，需要大量增加模型訓練時間才能達到或超過專業人類玩家的水平。

通過兒童的學習模式，發現當前最優秀的AI也比不上5歲小孩的智力，或許我們可以回答“下一代AI應該是什麼樣”，這個神經網路最重要的未解難題之一。

至少要有兩重升級：

1.有意識。目前公認文字表達能力最高、模型最為龐大的GPT-3也曾被專家吐槽是“無腦作業”，其實並不真正理解自己寫出的句子。而具有自主探索、決策、推理能力的AI，可以理解自己周圍的環境，才是真正的人工智慧。

2.能效比。為什麼即使存在缺陷，依然沒有妨礙深度學習帶領AI進來發展熱潮呢?核心原因就在於深度神經網路大幅度降低了全社會處理、挖掘、應用大資料的成本。相對人腦而言，現有的計算硬體功耗都很高，不斷提升AI價效比，是避免再次陷入寒冬的唯一方法，也在呼喚更高階的演算法。

這兩個基本難題，只能交給科學家和工程師們在針尖上做大文章了。對於我們普通人來說，保有一顆如兒童般對世界的好奇心，觸碰充滿各種資訊的大自然，由此得來的系統認知與思維能力，或許才是機器永遠無法企及，且彌足珍貴的。

這個假期，你們都有過哪些有趣的探索呢?快來評論區告訴我呀!

AI：我又又又打敗了人類冠軍！小學生：叫爸爸！

相關文章