機器學習建模會威脅人工建模嗎?它仍在努力從語言中提取意義

banq發表於2021-09-02

thenewstack這篇文章強調了語言上下文的重要性:上下文為王,即使像 GPT-3 這樣的大型語言模型也缺乏“對於特定領域的任何真正基礎經驗和知識 ,遠遠達不到的人類理解意圖、上下文和意義的層次“:
語言是一種引人入勝的結構,它是人類如何分享和理解思想和知識的核心。對於如此複雜和微妙的事情,大多數人都沒有意識到,因為它似乎是(並且是)本能和自然的。這就是為什麼我們稱人類交流的語言為“自然語言”。
我們從嬰兒時期就開始吸收語言。簡單的詞出現在第一年或第二年。到 6 歲時,我們的詞彙量增加了數千個,到了青少年時期,已學習的單詞超過 100,000 個。儘管語言是人類與生俱來的能力,但機器學習它非常困難。
這屬於Moravec 悖論的一個典型例子:對於機器容易的事情對人來說很難,反之亦然
軟體可以快速而完美地計算大量集合的數學運算,但它在日常人類活動中遇到困難,例如識別周圍環境中的物體或理解語言。雖然開發以與人類相同的方式理解自然語言的軟體已經有大量的活動,但這仍然是一個重大挑戰。
 

文字不是數字
在過去的 20 年中,產生和捕獲的所有形式的資料量都呈爆炸式增長。
從廣義上講,這些資料分為兩類:結構化和非結構化。
結構化資料是數字化和有組織的,根據結構定義是數學運算的基本輸入。得益於機器學習(ML) 和資料處理能力的整體增長,從結構化資料中,人工智慧為從潛在故障到欺詐檢測等所有方面產生預測性見解方面取得了堅實的進展。如果您能夠以數字方式表達和構建資料,那麼您就有了機器學習驅動洞察力的潛在候選者。
但數字技術也導致非結構化資料的大量增加,包括圖片、影片和語言資料。這就是傳統的基於機器學習的自然語言處理 (NLP) 技術的不足之處。語言是資料密集型的——它攜帶著大量的潛在資訊,具體取決於它的使用方式。
作為思考練習,只需列出任何常見單詞(如“bat”)的含義和用法的數量。這些含義來自上下文。語言學家 RJ Firth 寫道:“你應該知道它所擁有的公司一個詞。” 語言的這些內在元素使得應用數學技術真正理解自然語言的含義變得非常具有挑戰性。然而,“一刀切”的語言機器學習方法還有一個更根本的缺點:知識問題。
 

知識問題
當您進入複雜的語言文件的現實世界時,語言挑戰變得更加複雜,這些文件為眾多企業提供支援,並且是其領域所獨有的。根據定義,這些是使語言更加複雜的邊緣情況。機器學習模型僅透過訓練所依據的資料瞭解世界,並透過在許多情況下複雜且不透明的演算法得出結果,這是許多人工智慧方法的著名“黑匣子”特徵。
提供實際解決方案的大部分工作取決於確保資料集足夠大且具有足夠的代表性,以捕獲主題專家只有經過多年的經驗和培訓才能識別的資訊。在許多情況下,如此大量的訓練資料是不可用的。鑑於現實世界會隨著時間的推移而發生變化,並且模型需要進行再訓練,這也是一項持續的練習。
即使是 GPT-3 等大型語言模型的廣為人知的進步,也沒有理由對這種複雜性持樂觀態度。這些模型依賴海量資料集進行訓練,可以處理相對簡單的語言案例。但是在特定領域缺乏任何真正的基礎,它們與具有經驗和知識的人用來理解意圖、上下文和含義的方法相去甚遠。
 

整體超過部分之和
人們逐漸認識到需要將機器學習方法的功能與建立在企業專家多年來開發的知識基礎上的方法相結合。這些基於知識的方法被稱為符號人工智慧,依賴於嵌入知識的技術,類似於人類如何建立自己對學科的掌握。
符號方法提供了可解釋性的額外好處,因為結果與知識的顯式表示相關聯。事實上,符號方法是用於人工智慧自然語言理解的第一種技術,並且越來越被視為對最近的機器學習方法的必要補充。
學習和知識方法的結合提供了大規模產生深入理解的能力,以及與可解釋的領域和結果相關的見解。這種“混合”方法可以確保以可擴充套件的方式捕獲和交付嵌入在語言中的相關資訊,從而做出更快、更智慧和更一致的決策,從而使人們能夠更好地完成工作(變得更專業)。這最終是企業競爭的舞臺,也是最好的技術提供的場所。
 

相關文章