機器學習無法解決自然語言理解問題 - thegradient

banq發表於2021-08-10

這是經驗和資料驅動的革命,在 1990 年代初期,一場統計革命席捲了人工智慧 (AI)——這場革命在 2000 年代達到高潮,神經網路以其現代深度學習 (DL) 的轉世而凱旋歸來。這一經驗主義轉向席捲了人工智慧的所有子領域,儘管這項技術最具爭議的應用是自然語言處理 (NLP)——一個人工智慧的子領域已被證明比任何人工智慧先驅者想象的要困難得多。
資料驅動的經驗方法在 NLP 中的廣泛使用具有以下起源:在三年的霸權之後,符號和邏輯方法無法產生可擴充套件的 NLP 系統,導致了所謂的 NLP 經驗方法(EMNLP)的興起——我在這裡使用的一個短語統稱為資料驅動的、基於語料庫的、
這種向經驗主義轉變背後的動機非常簡單:直到我們對語言如何運作以及語言如何與我們在日常口語中談論的世界的知識有一些瞭解之前,經驗和資料驅動的方法可能有助於構建一些實用的文字處理應用程式。正如 EMNLP 的先驅之一 Kenneth Church 解釋的那樣,NLP 資料驅動和統計方法的倡導者對解決簡單的語言任務很感興趣——動機從來不是暗示這就是語言的工作方式,而是“它是做一些簡單的事情總比什麼都不做要好”。
後代誤解了這一經驗趨勢,其動機是透過假設這一點來尋找簡單任務的實際解決方案可能近似正確(PAC) 正規化將擴充套件到完全自然語言理解 (NLU)。
種被誤導的趨勢導致了一種不幸的情況:堅持使用需要大量計算能力的“大型語言模型”(LLM)來構建 NLP 系統,但徒勞地嘗試近似透過嘗試記住大量資料,我們稱之為自然語言的無限物件。在我們看來,這種偽科學的方法不僅浪費時間和資源,而且還透過誘使一代年輕科學家認為語言只是資料。
這條道路只會導致失望,更糟的是, 阻礙自然語言理解 (NLU) 的任何真正進步。相反,我們認為是時候重新考慮我們的 NLU 工作方法了,因為我們相信 NLU 的“大資料”方法不僅在心理上、認知上,甚至在計算上都是不可信的,而且正如我們將在這裡展示的,這種盲目的資料驅動的 NLU 方法在理論上和技術上也存在缺陷。
  

語言處理與語言理解
雖然 NLP(自然語言處理)和 NLU(自然語言理解)經常互換使用,但兩者之間存在實質性差異,突出這種差異至關重要。事實上,認識到語言理解和單純的語言處理之間的技術差異將使我們意識到資料驅動和機器學習方法雖然可能適用於某些 NLP 任務,但它們甚至與 NLU 無關。考慮最常見的“下游 NLP”任務:

  • 總結
  • 話題抽取
  • 命名實體識別(NER)
  • (語義)搜尋
  • 自動標記
  • 聚類

上述所有任務都與作為所有機器學習方法基礎的可能近似正確(PAC) 正規化一致。具體來說,評估某些 NLP 系統關於上述任務的輸出是主觀的:沒有客觀標準來判斷一個總結是否優於另一個;或者某個系統提取的(關鍵)主題/短語是否比另一個系統提取的更好,等等。但是,語言理解不允許任何自由度。

...點選標題

相關文章