機器學習無法解決自然語言理解問題 - thegradient
這是經驗和資料驅動的革命,在 1990 年代初期,一場統計革命席捲了人工智慧 (AI)——這場革命在 2000 年代達到高潮,神經網路以其現代深度學習 (DL) 的轉世而凱旋歸來。這一經驗主義轉向席捲了人工智慧的所有子領域,儘管這項技術最具爭議的應用是自然語言處理 (NLP)——一個人工智慧的子領域已被證明比任何人工智慧先驅者想象的要困難得多。
資料驅動的經驗方法在 NLP 中的廣泛使用具有以下起源:在三年的霸權之後,符號和邏輯方法無法產生可擴充套件的 NLP 系統,導致了所謂的 NLP 經驗方法(EMNLP)的興起——我在這裡使用的一個短語統稱為資料驅動的、基於語料庫的、
這種向經驗主義轉變背後的動機非常簡單:直到我們對語言如何運作以及語言如何與我們在日常口語中談論的世界的知識有一些瞭解之前,經驗和資料驅動的方法可能有助於構建一些實用的文字處理應用程式。正如 EMNLP 的先驅之一 Kenneth Church 解釋的那樣,NLP 資料驅動和統計方法的倡導者對解決簡單的語言任務很感興趣——動機從來不是暗示這就是語言的工作方式,而是“它是做一些簡單的事情總比什麼都不做要好”。
後代誤解了這一經驗趨勢,其動機是透過假設這一點來尋找簡單任務的實際解決方案可能近似正確(PAC) 正規化將擴充套件到完全自然語言理解 (NLU)。
種被誤導的趨勢導致了一種不幸的情況:堅持使用需要大量計算能力的“大型語言模型”(LLM)來構建 NLP 系統,但徒勞地嘗試近似透過嘗試記住大量資料,我們稱之為自然語言的無限物件。在我們看來,這種偽科學的方法不僅浪費時間和資源,而且還透過誘使一代年輕科學家認為語言只是資料。
這條道路只會導致失望,更糟的是, 阻礙自然語言理解 (NLU) 的任何真正進步。相反,我們認為是時候重新考慮我們的 NLU 工作方法了,因為我們相信 NLU 的“大資料”方法不僅在心理上、認知上,甚至在計算上都是不可信的,而且正如我們將在這裡展示的,這種盲目的資料驅動的 NLU 方法在理論上和技術上也存在缺陷。
語言處理與語言理解
雖然 NLP(自然語言處理)和 NLU(自然語言理解)經常互換使用,但兩者之間存在實質性差異,突出這種差異至關重要。事實上,認識到語言理解和單純的語言處理之間的技術差異將使我們意識到資料驅動和機器學習方法雖然可能適用於某些 NLP 任務,但它們甚至與 NLU 無關。考慮最常見的“下游 NLP”任務:
- 總結
- 話題抽取
- 命名實體識別(NER)
- (語義)搜尋
- 自動標記
- 聚類
上述所有任務都與作為所有機器學習方法基礎的可能近似正確(PAC) 正規化一致。具體來說,評估某些 NLP 系統關於上述任務的輸出是主觀的:沒有客觀標準來判斷一個總結是否優於另一個;或者某個系統提取的(關鍵)主題/短語是否比另一個系統提取的更好,等等。但是,語言理解不允許任何自由度。
...點選標題
相關文章
- 機器學習工作坊 - 自然語言處理機器學習自然語言處理
- 基於課程學習(Curriculum Learning)的自然語言理解
- 自然語言處理(NLP)系列(一)——自然語言理解(NLU)自然語言處理
- 專訪 | 德國大神Hans Uszkoreit:語言才是AI的關鍵,深度學習無法解決NLP的核心問題AI深度學習
- C語言解決排序問題C語言排序
- 解決機器學習問題的一般流程機器學習
- rasa form的中斷形式 自然機器語言學習 人工智慧ORM人工智慧
- 2018自然語言處理與機器學習論文發表統計自然語言處理機器學習
- 當Git和Git-LFS無法解決機器學習復現問題時,是時候祭出DVC了Git機器學習
- 解決VMware安裝RedHat虛擬機器無法上網的問題Redhat虛擬機
- 解決Linux無法開啟android模擬器問題LinuxAndroid
- 解決Kali LinuxVI編輯器無法複製問題Linux
- 解決無法使用VI的問題
- 解決ASM無法啟動問題ASM
- 基於機器學習和TFIDF的情感分類演算法,詳解自然語言處理機器學習演算法自然語言處理
- 簡單幾步解決win10專業版此語言無法安裝在此計算機上問題Win10計算機
- Parallels Tools 無法安裝問題解決Parallel
- 解決codeblocks無法除錯的問題BloC除錯
- 解決Centos無法yum源的問題CentOS
- 解決split無法得到空字串問題字串
- 自然語言處理之序列標註問題自然語言處理
- 【NPL】如何解決90%的自然語言處理問題:分步指南奉上自然語言處理
- Oracle Haip無法啟動問題學習OracleAI
- 自然語言語法符合熱力學自由能原則
- 如何解決機器學習樹整合模型的解釋性問題機器學習模型
- 深度學習也解決不掉語音識別問題深度學習
- Ubuntu解決火狐瀏覽器無法同步書籤的問題Ubuntu瀏覽器
- 【自然語言處理篇】--Chatterbot聊天機器人自然語言處理機器人
- 對瀏覽器css相容性的學習理解及問題解決彙總瀏覽器CSS
- NPL---自然語言處理單詞界定問題自然語言處理
- libigl庫的學習筆記--問題與解決辦法筆記
- 解決 raw.githubusercontent.com 無法訪問的問題Github
- 解決寶塔皮膚無法訪問的問題?
- Hanlp自然語言處理工具之詞法分析器HanLP自然語言處理詞法分析
- 機器學習 | 八大步驟解決90%的NLP問題機器學習
- 機器學習:迴歸問題機器學習
- 自然語言處理中的遷移學習(下)自然語言處理遷移學習
- 自然語言處理中的遷移學習(上)自然語言處理遷移學習