當從靜止狀態放下一個球時,它會以9.8 m /s²的加速度向下加速。如果假設沒有空氣阻力而將其向下扔,則其離開手後的加速度為?
(A)9.8 m /s²
(B)大於9.8 m /s²
(C)小於9.8 m /s²
(D)除非給出擲球速度,否則不能計算。
同源結構常被作為自然選擇過程的證據。以下都是同源結構的例子,除了?
(A) 鳥的翅膀和蝙蝠的翅膀
(B) 鯨魚的鰭和人的胳膊
(C) 海豚的胸鰭和海豹的鰭
(D) 昆蟲的前肢和狗的前肢
你覺得,GPT-3知道上面這兩個問題的正確答案嗎?
在前段時間,OpenAI開放了GPT-3的API,人們爭相申請成功後,用該API做出了許多令人驚豔的應用,也展現了GPT-3近乎擬人的能力。只需要少量示例,GPT-3就能學會生成網頁、圖表、程式碼、文字、推理,甚至編寫Keras程式碼。
但是,在一些物理問答中,GPT-3表現出了對物理場景缺乏理解的缺陷。並且在一些刻意提出的反常識問題中,比如“太陽有幾隻眼睛”,GPT-3不會感到異常,而是照常輸出回答:“太陽有一隻眼睛”。
深度學習批判大師Gary Marcus也質疑,網路上瘋傳的GPT-3示例只是cherry picking(只挑好的實驗結果),如若不然,請讓它來PK一下羅翔老師:
律師資格考試的前一天晚上,這位考生的隔壁鄰居正在開派對。鄰居家的音樂太吵了,考生睡不著覺。考生打電話給鄰居,請她把噪音關小一點。鄰居突然結束通話了電話。考生很生氣,走進他的衣櫥拿了把槍。他走到外面,朝鄰居客廳的窗戶開了一槍。這位考生無意開槍,他只想對鄰居家造成一些破壞,以減輕他的憤怒。然而,子#彈幾種了天花板並從天花板上彈回,擊中了一名參加聚會的人的背部,殺死了他。司法管轄權規定在公共場所開槍是輕罪。應試者最有可能被判犯有下列與聚會者之死有關的罪行?
(A) 謀殺。
(B) 過失殺人。
(C) 故意殺人。
(D) 在公共場合開槍。
但是至今也沒有人對GPT-3做一個客觀而詳盡的評估。
GPT3在多工上的表現如何?我們向它提出了有關基礎數學、歷史、法律等方面的問題。我們發現在很多工上,GPT-3比隨機模型要好,但是對於所有57個任務,它仍有很大的改進空間。
加州大學伯克利分校Dan Hendrycks在推特上如上說道。
Dan Hendrycks聯合卡納基梅隆大學Collin Burns等人於近期發表了一篇論文,他們在論文中提出了一種新的測試來衡量多個大型文字模型的多工準確率。測試內容包括小學數學、美國曆史、電腦科學、法律等57項任務。要想在這些測試中獲得高準確率,模型必須具備廣泛的世界知識和解決問題的能力。
作者發現,雖然這些大型模型具有接近隨機機率的準確率,但最大的GPT-3模型比隨機機率平均提高了近20個百分點。然而,在57個任務中的每一個任務中,最好的模型仍然需要大量的改進才能達到人類水平的準確率。
另外模型也有不平衡的表現,經常會出現一些莫名其妙的bug。更糟糕的是,它們在一些重要的社會科目中,如道德和法律方面只能達到近乎隨機的準確率。透過綜合評估模型的學術和專業理解的廣度和深度,作者的測試可以用於分析多個任務的模型,並找出其中重要的缺點。
論文連結:
1 介紹
自然語言處理(NLP)模型在最近提出的一些基準測試中取得了超越人類的效能。然而,這些模型在語言理解方面的整體表現仍遠低於人類水平,這表明這些基準與模型的實際能力之間存在一些脫節。2018年人們引入了通用語言理解評估基準GLUE,以評估模型在各種NLP任務中的表現,一些top模型在一年內取得了超越人類的表現。
然而GLUE仍然存在某些缺陷,為了解決GLUE的缺點,研究人員又設計了具有更高難度任務的SuperGLUE基準。SuperGLUE釋出約一年後,top模型的效能再次達到人類水平。
這些基準評估的是語言技能而非整體語言理解能力,這之後人們也提出了一系列常識性基準來衡量基本推理和日常知識。然而,這些最近提出的基準同樣被模型快速達到高準確率。總的來說,這些基準測試接連不斷接近人類水平的表現表明,它們並沒有捕捉到語言理解的重要一面。
Transformer模型透過對大量文字語料庫(包括所有Wikipedia、數千本書和眾多網站)進行預訓練,推動了這一最新進展。因此,在這些模型中可以看到關於特定主題的廣泛資訊,但是其中大多數都沒有透過現有的NLP基準進行評估。因此,當前的語言模型在學習和應用來自多個領域的知識方面究竟有多大的能力,仍然是一個懸而未決的問題。
為了彌合模型在預訓練期間所看到的廣泛知識與現有的成功衡量標準之間的差距,本文作者引入了一個新的基準,用於評估模型在人類學習的不同科目上的效能。作者設計了一個基準來衡量在預訓練中獲得的知識,並只在零樣本和少樣本的情況下評估模型。這使得基準測試更具挑戰性,也更類似於我們評估人類的方式。
該基準涵蓋了STEM、人文科學、社會科學等領域的57門學科。它測試世界知識和解決問題的能力,難度從初級水平到高階專業水平不等。課程範圍從傳統領域,如數學和歷史,到更專業的領域,如法律和倫理。主題的粒度和廣度使得基準測試非常適合於識別模型的盲點。
作者發現,只有在人們最近提出的大型模型裡,在該基準上才取得了有意義的進展,尤其是,高達130億個引數的模型實現了準確率25%的隨機效能,但是1750億個引數的GPT-3模型達到了更高的43.9%的準確率(見圖1b)。
另一方面,與人類專業人士不同,GPT-3不擅長任何一門學科。相反,GPT-3表現是不平衡的,GPT-3在某些科目上有將近70%的準確率,但在其它一些科目上表現近乎隨機。
作者的研究結果表明,雖然最近的NLP模型進展令人印象深刻,但這些SOTA模型仍然限於學習和應用預訓練知識、具有近乎隨機準確率的任務包括計算量大的科目,如物理和數學,以及與人類價值觀相關的科目,如法律和道德。
第二個弱點尤其值得關注,因為對於未來的模型來說,對什麼是合法的和什麼是道德的有深刻的理解是很重要的。
令人擔憂的是,作者還發現GPT-3對它知道或不知道的東西沒有一個準確的感覺,因為它的平均置信度可能比實際準確率低24%。作者綜合評估了一個模型的文字理解的廣度和深度,並涵蓋了人類被激勵學習的眾多主題。這個測試包含57個任務,可以用來分析跨任務模型的聚合屬性,並跟蹤重要的缺點。
2 少樣本提示
作者提供如圖1a所示的GPT-3提示,每個提示以“下面是關於[主題]的多選題(帶答案)”開頭。對於零樣本評估,作者將問題附加到提示中。對於少樣本評估,在附加問題之前,作者在提示中新增了5個帶有答案的演示示例。所有提示以“回答:”結尾。然後,該模型為token“A”、“B”、“C”和“D”各自生成對應的機率,並將機率最高的選項作為預測結果。為了得到一致的評估,作者建立了一個開發集,每個主題有5個固定的少樣本示例。
3 多工測試
作者建立了一個大規模的多工測試,測試由來自不同知識分支的多項選擇題組成。這項測試涉及人文科學、社會科學、硬核科學和其它一些對某些人群來說很重要的領域。測試總共有57個任務,這也是Atari遊戲的數量。資料集中的問題由研究生和本科生從網上免費獲得的資源中手動收集。
其中包括“研究生檔案考試”和“美國醫學執照考試”等考試的練習題,還包括為本科課程設計的問題和為牛津大學出版社讀者設計的問題。有些任務包含一個科目,如心理學,但是設定成有特定的難度級別,如“小學”、“高中”、“大學”或“專業”。例如,“專業心理學”任務從免費提供的練習題中抽取問題,以供心理學專業實踐考試使用,而“高中心理學”任務有一些類似於升學心理學考試的問題。
作者總共收集了15908個問題,並將這些問題分成了少樣本開發集、驗證集和測試集。少樣本開發集每個受試者有5個問題,驗證集可用於選擇超引數,由1543個問題組成,測試集有14080個問題。每個科目至少包含100個測試例項,比大多數用來評估人類的考試都要多。
由於作者的測試綜合了不同的科目和不同的難度,衡量的不僅僅是簡單的常識或狹隘的語言理解。相反,作者衡量的是任意的真實世界文字理解。由於模型是在網際網路上預訓練的,這使作者能夠測試它們從海量語料庫中提取有用知識的能力。
為了在測試中取得成功,未來的模型應該是全面的、擁有廣泛的世界知識並培養專家級的問題解決能力。這些特性使得這個測試很可能成為一個持久且資訊豐富的基準。
人文學科
人文學科是一組運用定性分析,並且分析方法而不是科學的經驗方法的學科。人文學科包括法律、哲學、歷史學等,掌握這些科目需要多種技能。例如,法律理解需要了解如何將規則和標準應用於複雜的場景,還需要透過規定和解釋提供答案。
作者在圖2中對此進行了說明。法律理解對於理解和遵守規則和法規也是必要的,這是約束開放世界機器學習模型的必要能力。
對於哲學,作者的問題包括邏輯謬誤、形式邏輯和著名的哲學論據等概念,還包括道德場景,包括來自倫理資料集的問題,這些問題透過預測關於不同日常場景的廣泛道德直覺來測試模型對規範性陳述的理解。最後的歷史問題則涵蓋了廣泛的時間段和地理位置,包括史前史和其他高階學科。
表2:57種任務總結
百科全書推銷員Seller開車靠近Hermit房子時,他看到一個標語,上面寫著:“拒絕推銷員靠近。侵入者將受到起訴。後果自負。” 但他沒有理會這些,而是沿著車道駛向房屋。當他轉彎時,埋在車道中的炸#藥爆炸了,Seller受傷了。Seller可以從Hermit 處獲得傷害賠償嗎?
(A)是,除非在Seller提出指控時,Hermit表示只是為了威懾而非傷害入侵者。
(B)是,如果Hermit對車道下的爆炸物負責。
(C)不,因為Seller無視該標誌,該標誌警告他不要繼續前進。
(D)不,如果Hermit有理由擔心入侵者會來傷害他或他的家人。
社會科學
社會科學包括研究人類行為和社會的知識分支。學科領域包括經濟學、社會學、政治學、地理學、心理學等。示例問題請參見圖3。
經濟學問題包括微觀經濟學、宏觀經濟學和計量經濟學,涵蓋不同型別的問題,包括需要混合世界知識、定性推理或定量推理的問題。還包括重要但更深奧的主題,如安全研究,以測試在訓練前所經歷和學到的東西的界限。社會科學還包括心理學,這一領域對於獲得對人類微妙的理解可能特別重要。
微觀經濟學:政府不鼓勵和監管壟斷的原因之一是?
(A)生產者剩餘減少,而消費者剩餘增加。
(B)壟斷價格可確保生產效率,但會耗費社會分配效率。
(C)壟斷企業不從事重大研發活動。
(D)消費者剩餘因價格上漲和產出下降而損失。
安全研究:為什麼將愛滋病毒/愛滋病視為非傳統安全問題?
(A)愛滋病毒/愛滋病是一種新出現的疾病,直到20世紀後期才出現。
(B)不良健康可能間接威脅國家,但也可能威脅其他方面,例如經濟。
(C)面對壓倒性的愛滋病毒/愛滋病規模,需要一種新方法,以便從理論上說明其對安全的影響。
(D)以上都不是-愛滋病毒/愛滋病應該定義為傳統的安全問題。
科學、技術、工程和數學(STEM)
STEM課程包括物理、電腦科學、數學等。圖4顯示了兩個示例。概念物理測試對簡單物理原理的理解,可被認為是物理常識基礎Physical IQA的更難版本。作者也測試了從小學到大學水平不同的數學問題解決能力的困難程度。大學數學問題,像GRE數學科目考試中發現的問題,通常需要推理鏈和抽象知識。為了編寫數學表示式,作者使用LaTeX 或如*和ˆ的符號分別用於乘法和求冪操作。STEM課程需要經驗方法、流體智慧以及程式知識。
當從靜止狀態放下一個球時,它會以9.8 m /s²的加速度向下加速。如果假設沒有空氣阻力而將其向下扔,則其離開手後的加速度為?
(A)9.8 m /s²
(B)大於9. 8 m /s²
(C)小於9.8 m /s²
(D)除非給出擲球速度,否則不能計算。
在復z平面中,滿足方程z²= | z |²的點集為?
(A)兩個點
(B)圓
(C)射線
(D)直線
其他
還有很多主題,要麼不完全符合前面三個類別中的任何一個,要麼就沒有成千上萬個免費提供的問題。作者把這些主題分為其他主題。這一部分包括“專業醫學任務”,其中有一些難題需要人類多年的學習才能掌握。在圖5中描述了一個示例。本節還包括金融、會計和市場營銷等商業主題,以及有關全球事實的知識。後者包括不同國家隨時間推移的貧困統計資料,這可能是建立一個準確的世界模型所必需的。
一名33歲的男子因甲狀腺癌接受甲狀腺根治術。在手術中,中度出血需要結紮頸部左側的幾條血管。術後血清研究顯示鈣濃度為7.5 mg / dL,白蛋白濃度為4 g / dL,甲狀旁腺激素濃度為200 pg / mL。對以下哪個血管的損害導致了該患者的病情?
(A) 肋頸干支
(B) 頸外動脈支
(C) 甲狀腺頸干支
(D) 頸內靜脈支
4 實驗&結果
評估和模型
為了衡量該多工基準測試的效能,作者計算了該模型在所有任務上的分類準確率並評估了GPT-3和UnifiedQA。對於GPT-3,作者使用OpenAI API,該API可以訪問“Ada”、“Babbage”,“Curie”和“ Davinci”這四個模型變體,分別稱為“小”(27億個引數)、 中”(67億)、“大”(130億)和“超大”(1750億)。UnifiedQA使用T5文字到文字主幹,並在先前提出的問答資料集上進行了微調,其預測是與UnifiedQA文字輸出的token重疊最高的類別。由於UnifiedQA在其它資料集上進行了微調,因此作者對其進行了評估,而無需進行任何進一步調整即可評估其遷移準確率。
表1:四大學科(人類學、社會科學、STEM、其它學科)中每個模型的平均加權準確率。所有值單位均為百分比。UnifiedQA、GPT-3相比隨機模型的表現超出幾個百分點。
模型尺寸和準確率
表1中比較了每種GPT-3尺寸的少樣本準確率。作者發現,三個較小的GPT-3模型具有接近隨機的準確率(大約25%)。作者還嘗試評估了110億引數的T5模型,並確認它同樣具有隨機準確率。相比之下,“超大”的1,750億引數GPT-3模型的效能明顯優於隨機模型,準確率為43.9%。在零樣本設定中,作者發現了定性上相似的結果。雖然較小的模型具有約25%的零樣本準確率,但如圖8顯示,最大的GPT-3模型具有較高的零樣本準確率,約為37.7%。圖1b表明,與評估常識和語言理解的資料集相比,大型少樣本模型在多工測試中表現出了非隨機準確率。
為了測試模型大小對其它方法的重要性,作者還評估了UnifiedQA模型。UnifiedQA的優點是可以在其它問答資料集上進行微調,並且作者透過其遷移效能來進行評估,而無需進行任何其它微調。測試中最大的UnifiedQA模型具有30億個引數,略大於“GPT-3 Small”。儘管如此,它在表1中顯示其達到了38.5%的準確率。儘管UnifiedQA的引數減少了兩個數量級,但此結果比少樣本“GPT-3 X-Large”的準確率要差,但比零樣本GPT-3 “GPT-3 X-Large”高。作者還發現,即使是隻有6000萬個引數的最小的UnifiedQA變體,也具有大約30%的準確率。這些結果表明,雖然模型大小是實現強大效能的關鍵組成部分,但這並不是唯一重要的因素。
學科比較
使用該測試,作者發現GPT-3在效能上存在片面性,並存在一些實質性的知識空白。圖6顯示了GPT-3在所有57個任務中的準確率,表明GPT-3在所有任務中的表現均低於專家水平,準確率從“美國外交政策”的69%到“大學化學”的26%不等。
總體而言,GPT-3在高度程式化問題上的表現不佳。圖6顯示,與口語主題相比,GPT-3在計算繁重的STEM主題的準確率往往較低。實際上,在10個最低準確率的任務中,有9個是STEM主題,它們強調數學或計算。作者推測這是因為相比程式化知識,GPT-3更容易獲得宣告性知識。例如,初等數學中的許多問題都要求對算術應用順序運算(即括號指數乘除加減的優先次序)。
在圖7a中,作者確認GPT-3知道代表這種次序的縮寫PEMDAS。但是,它並不能始終如一地將PEMDAS應用於實際問題。另一方面,程式化理解並不是唯一的弱點。作者發現,GPT-3在諸如“道德情景”和“專業法”等一些口頭任務上的準確率也特別低。
圖7:(a)讓GPT-3根據提示完成計算,以測試有關運算順序的知識。帶下劃線的藍色粗體字是GPT-3自動完成的“括號指數乘除加減”運算順序。儘管它具有描述性知識並且知道運算順序,但是它不知道如何應用其知識並且不遵循運算的優先順序。
該測試還表明,GPT-3獲得的知識與人類完全不同。例如,GPT-3以教學上異常的順序學習指定主題。GPT-3在大學醫學(47.4%)和大學數學(35.0%)上的表現優於計算密集型基礎數學(29.9%)。GPT-3的知識展示出非同尋常的廣度,但沒有能力掌握單個主題。所以,測試表明GPT-3具有許多知識盲點,並且能力是片面的。
校準
除非模型經過校準,否則不應該信任模型的預測,這意味著模型的置信度是對預測正確的實際機率的良好估計。但是,大型神經網路經常被錯誤校準,尤其是在分佈偏移下。作者透過測試GPT-3的平均置信度評估每個主題的實際準確率的程度,來評估GPT-3的校準。圖7b中的結果表明GPT-3未經校準。實際上,它的置信度與其在零樣本設定下的實際準確率之間的關係很小,對於某些主題,其準確率和置信度之間的差異高達24%。另一種校準方法是均方根(RMS)校準誤差。許多工的預測均未校準,例如“基礎數學”的零位有效值校準誤差為19.4%。這些結果表明模型校準有很大的改進空間。
5 討論
多模態理解
儘管文字能夠傳達有關世界的大量概念,但許多重要的概念還是透過其它模態傳達的,例如影像、音訊和物理互動。現有的大型NLP模型(例如GPT-3)不包含多模態資訊,因此作者以純文字格式設計基準測試。但是,隨著模型慢慢具有處理多模態輸入的能力,人們應該設計基準來應對這種變化。“Turk Test”就是這樣一類基準,其中包括Amazon Mechanical Turk Human Intelligence Tasks。這些是定義明確的任務,需要模型以靈活的形式進行互動,並展示對多模態的理解能力。
網際網路資料作為訓練集
該研究的基準測試與以前的多工NLP基準測試之間的主要區別在於不需要大型訓練集。取而代之的是,作者假設模型已經從網際網路上讀取了大量的不同文字而獲得了必要的知識。
這啟發作者提出一種方法上的改變,從而使模型的訓練過程更類似於人類的學習方式。儘管過去的機器學習基準測試大多都是從大量的問題庫中學習模型,但人類主要是透過閱讀書籍並聽取其他人談論該主題來學習新主題。對於諸如“專業法”之類的科目,可以使用大量的法律語料庫,例如164卷的法律百科全書法學著作Corpus Juris Secundum,但可用的律師考試問題少於5,000個。僅透過少量的實踐測試來學習整個法律領域的知識是不現實的,因此將來的模型必須在預訓練階段學習更多的知識。
因此,作者以零樣本或少樣本設定評估預訓練模型,併為每個任務提供一個開發集、驗證集和測試集。開發集用於少樣本提示,驗證集可用於超引數調整,測試集用於計算最終準確率。重要的是,作者評估的格式與預訓練期間獲取資訊的格式不同。這樣做的好處是避免了對虛假訓練集標註(annotation artifacts)的擔憂,這與以前的同分布訓練集和測試集正規化形成鮮明對比。此更改還可以收集更廣泛和多樣化的任務集以進行評估。隨著模型從各種線上資源中提取資訊的提升,預計該方法將變得更加廣泛適用。
模型限制
作者發現當前的大型Transformers還有很大的改進空間。他們在建模人類的拒絕/允許的態度方面特別不擅長,尤其在“專業法”和“道德情景”任務上表現不佳。為了使未來的系統與人類價值觀保持一致,在這些任務上實現高效能至關重要,因此,未來的研究應特別著重於提高這些任務的準確率。模型難以執行計算,以至於它們在基礎數學和許多其它STEM學科上表現不佳。此外,它們在任何主題上都無法與專家水平的表現相提並論,因此對於所有主題而言,它們都是次於人類的。平均而言,模型才剛剛超越隨機準確率水平。
解決這些缺點可能具有挑戰性。為了說明這一點,作者嘗試透過對專業資料進行預訓練來建立更好的“專業法”模型,但這僅取得了有限的成功。作者還收集了大約2,000個“專業法”訓練示例。在使用此自定義訓練集對基於RoBERTa的模型進行微調後,模型獲得了32.8%的測試準確率。為了測試其它專業訓練資料的影響,作者還對RoBERTa繼續利用哈佛大學法律圖書館案例法語料庫case.law的大約160萬個法律案例摘要進行預訓練,但經過微調後,其準確率僅為36.1%。這表明,雖然對相關的高質量文字進行額外的預訓練可以有所幫助,但可能不足以大大提高當前模型的效能。
目前尚不清楚簡單地擴充套件現有語言模型是否可以很好地解決該測試任務。當前的研究表明,模型大小增加10倍時,資料必須相應增加大約5倍,才能達到相似的效能。除了建立數萬億個引數的語言模型的鉅額費用外,資料也可能成為瓶頸,因為深奧的書面知識文字的數量要少於日常文字。