隨著生成式 AI 模型掀起新一輪 AI 浪潮,越來越多的行業迎來技術變革。許多行業從業者、基礎科學研究者需要快速瞭解 AI 領域發展現狀、掌握必要的基礎知識。
如果有一份「機器學習精煉秘笈」,你認為應該涵蓋哪些知識?
近日,一份網傳 OpenAI 聯合創始人兼首席科學家 Ilya Sutskever 整理的一份機器學習研究文章清單火了。網友稱「Ilya 認為掌握了這些內容,你就瞭解了當前(人工智慧領域) 90% 的重要內容。」
推薦清單:https://arc.net/folder/D0472A20-9C20-4D3F-B145-D2865C0A9FEE
從研究主題上看,Ilya Sutskever 重點關注 transformer 架構、迴圈神經網路(RNN)、長短期記憶網路(LSTM)、神經網路的複雜度等。
推薦清單部分截圖。
例如,Ilya 推薦谷歌在 2017 年發表的經典論文《Attention Is All You Need》,這是 transformer 架構的問世之作。transformer 架構今天已經成為人工智慧領域的主流基礎架構,特別是它是生成式 AI 模型的核心架構。
Ilya 不僅推薦原論文,還推薦一篇由康奈爾大學副教授 Alexander Rush 等研究者在 2018 年撰寫的部落格文章 ——《The Annotated Transformer》。這篇文章以逐行實現的形式呈現了論文的註釋版本,它重新排序梳理了原論文的內容,並刪除了一些部分,最終展現的是一個完全可用的實現。2022 年 Austin Huang 等研究者又在其基礎上編輯整理出一份採用 PyTorch 實現的更新版部落格。
在 RNN 方面,Ilya 首先推薦閱讀 AI 大牛 Andrej Karpathy2015 年撰寫的一篇部落格,強調「RNN 驚人的有效性」。
Ilya 還推薦了由紐約大學 Wojciech Zaremba(OpenAI創始團隊成員)和 Ilya Sutskever 本人 2015 年發表的論文《Recurrent Neural Network Regularization》。當時,Ilya 還是谷歌大腦的研究科學家。
這篇論文為 RNN 提出了一種簡單的正則化技術,闡述瞭如何正確地將 dropout 應用於 LSTM,大大減少了各種任務的過擬合,包括語言建模、語音識別、影像字幕生成、機器翻譯等等。
此外,Ilya 還推薦了 DeepMind、倫敦大學學院 2018 年聯合發表的論文《Relational recurrent neural networks》。
在 LSTM 方面,Ilya 推薦了 Anthropic 聯合創始人、前 OpenAI 可解釋性團隊技術負責人 Christopher Olah 2015 年撰寫的部落格文章《Understanding LSTM Networks》,這篇文章全面細緻地講解了 LSTM 的基本知識,並闡明 RNN 取得的顯著成果本質上是依靠 LSTM 實現的。
在「複雜度」方面,Ilya 重點推薦了《Kolmogorov Complexity and Algorithmic Randomness》一書中講解「演算法統計」的部分。柯爾莫哥洛夫複雜度為計算理論提供了一個用於探索問題固有複雜度的框架,可幫助研究人員更好地設計和評估 AI 模型。
在這份推薦清單中,我們還看到了一些著名 AI 學者的經典論文。例如,2012 年 ImageNet 影像識別大賽中圖靈獎得主 Geoffrey Hinton 組的論文《ImageNet Classification with Deep Convolutional Neural Networks》,這篇論文提出了 AlexNet,引入了全新的深層結構和 dropout 方法,顛覆了影像識別領域,甚至被認為開啟了深度學習革命。Ilya 也是這篇論文的三位作者之一。
還有 2014 年,DeepMind Alex Graves 等人提出的神經圖靈機(NTM)。NTM 將神經網路的模糊模式匹配能力與可程式設計計算機的演算法能力相結合,具有 LSTM 網路控制器的 NTM 可以從輸入和輸出示例中推斷出簡單的演算法,例如複製,排序等。
此外,Ilya 還推薦了神經網路應用於基礎科學(化學)的研究論文、擴充套件定律相關文章等等,並推薦了史丹佛大學電腦科學課程 CS231n:用於視覺識別的卷積神經網路。
感興趣的讀者可以檢視原推薦清單,瞭解更多內容。
參考連結:https://twitter.com/keshavchan/status/1787861946173186062