2017 年,谷歌在論文《Attention is all you need》中提出了 Transformer,成為了深度學習領域的重大突破。該論文的引用數已經將近 13 萬,後來的 GPT 家族所有模型也都是基於 Transformer 架構,可見其影響之廣。 作為一種神經網路架構,Transformer 在從文字到視覺的多樣任務中廣受歡迎,尤其是在當前火熱的 AI 聊天機器人領域。
不過,對於很多非專業人士來說,Transformer 的內部工作原理仍然不透明,阻礙了他們的理解和參與進來。因此,揭開這一架構的神秘面紗尤其必要。但很多部落格、影片教程和 3D 視覺化往往強調數學的複雜性和模型實現,可能會讓初學者無所適從。同時為 AI 從業者設計的視覺化工作側重於神經元和層級可解釋性,對於非專業人士來說具有挑戰性。 因此,佐治亞理工學院和 IBM 研究院的幾位研究者開發了一款基於 web 的開源互動式視覺化工具「Transformer Explainer」,幫助非專業人士瞭解 Transformer 的高階模型結構和低階數學運算。如下圖 1 所示。