演算法、硬體、框架,2019年AI何去何從?

機器之心發表於2019-03-07

過去一年,關於人工智慧的事件、發現和發展比比皆是。很難從這些嘈雜的環境裡分辨出關於 AI 的真實訊號,即便可以,很多人也不知道那些訊號表達的是什麼資訊。因此,我將盡力提煉過去一年裡人工智慧大環境中的一些模式來讓你明確這一點。甚至,我們會在不久的將來見證其中的一些趨勢。

孔子曾說:「知其不可而為之。」他真是個智者啊。

別誤會,本文只是一片評論類文章。我不會全面記錄 AI 2018 年的成就,只是概括其中一些趨勢。而且我的描述是圍繞美國展開的,因為我不太瞭解其他國家發生的事,比如中國。本文的目標讀者包括工程師、企業家以及技術支持者。

演算法

演算法篇主要由深度神經網路主導。當然,你也會零零落落地聽到有人部署了「經典的」機器學習模型(如梯度提升樹或者多臂老虎機),並且聲稱這是每個人唯一需要的東西。也有一些質疑說深度學習正在做瀕死掙扎。甚至還有頂尖的研究者也在質疑一些深度神經網路架構的有效性和魯棒性。但是,無論你喜不喜歡,深度神經網路無處不在:在自動駕駛中,自然語言處理系統中,機器人中——你可以這麼說。深度神經網路中沒有能夠與自然語言處理生成對抗網路以及深度強化學習匹敵的進展。

深度 NLP:BERT

雖然在 2018 年之前就有一些突破性研究將深度神經網路用於文字(如 word2vec,GLOVE 和基於LSTM 的模型),但它們忽略了一個關鍵的概念:遷移學習。即在大規模的公開資料集上訓練好一個模型,然後在你正在使用的資料集上對其進行「微調」。在計算機視覺中,用著名的 ImageNet 資料集上發現的模式來解決特定問題通常是解決方案的一部分。

問題在於,用於遷移學習的技術並不真正適用於自然語言處理問題。從某種意義上講,像 word2vec 這樣預訓練的嵌入就起了這個作用,但是它們只在單個詞彙上起作用,並不能捕獲到語言的高階結構。

然而,在 2018 年,情況有所改變。語境化嵌入 ELMo 成為了自然語言處理中改進遷移學習的重要第一步。ULMFiT 則更進一步:不滿意嵌入的語義捕獲能力,它的作者提出了為整個模型進行遷移學習的方法。

但是最有趣的進展肯定是 BERT 的引入。透過讓語言模型從英文維基百科的所有文章集合中學習,BERT 團隊在 11 項自然語言處理任務中達到了當前最先進的結果——了不起!而且,BERT 的程式碼和預訓練模型都發布在網上了——所以你可以將這項突破用於自己的問題中。

相關文章