前幾天Meta開源釋出了新的Llama大語言模型:Llama-3系列,本次一共釋出了兩個版本:Llama-3-8B和Llama-3-70B,根據Meta釋出的測評報告,Llama-3-8B的效能吊打之前的Llama-2-70B,也就是說80億引數的模型幹掉了700億引數的模型,這個還真挺讓人震驚的。
Llama-3-8B真的有這麼強嗎?
鑑於8B的模型可以在24G視訊記憶體下流暢執行,成本不高,我就在AutoDL上實際測試了一下。
測試方案
使用的是我之前在AutoDL上釋出的一個大語言模型WebUI映象:yinghuoai-text-generation-webui (這個WebUI可以對大語言模型進行推理和微調),顯示卡選擇的是 4090D 24G視訊記憶體版本,使用三個問題分別測試了 Llama-3-8B-Instruct(英文問答)、Llama-3-8B-Instruct(中文問答)、llama3-chinese-chat、Qwen1.5-7B-Chat。其中llama3-chinese-chat是網友基於Llama-3-8B-Instruct訓練的中文對話模型,專案地址:https://github.com/CrazyBoyM/llama3-Chinese-chat
三個問題分別是:
- 小明的妻子生了一對雙胞胎。以下哪個推論是正確的?
- A.小明家裡一共有三個孩子
- B.小明家裡一共有兩個孩子。
- C.小明家裡既有男孩子也有女孩子
- D.無法確定小明家裡孩子的具體情況
- 有若干只雞兔同在一個籠子裡,從上面數,有35個頭,從下面數,有94只腳。問籠中各有多少隻雞和兔?
- 請使用C#幫我寫一個猜數字的遊戲。
這三個問題分別考察大語言模型的邏輯推理、數學計算和編碼能力。當然這個考察方案不怎麼嚴謹,但是也能發現一些問題。
因為Llama-3的中文訓練語料很少,所有非英語的訓練資料才佔到5%,所以我這裡對Llama-3-8B分別使用了中英文問答,避免因中文訓練不足導致測試結果偏差。
測試結果
雞兔同籠問題
Llama-3-8B-Instruct(中文問答)
首先模型沒有搞清楚雞和兔的腳的數量是不同的,其次模型解方程的能力也不怎麼行,總是算不對。
另外還是不是飆幾句英語,看來中文訓練的確實不太行。
Llama-3-8B-Instruct(英文問答)
搞清楚了不同動物腳的數量問題,但是還是不會計算,有時候方程能列正確,但是測試多次還是不會解方程組。
llama3-chinese-chat
中文無障礙,數學公式也列對了,但是答案是錯的,沒有給出解答過程。實測結果穩定性也比較差,每次總會給出不一樣的解答方式。
Qwen1.5-7B-Chat
中文無障礙,答案正確,解答過程也基本完整。
小明家孩子的情況
Llama-3-8B-Instruct(中文問答)
答案不正確,解釋的也不全面,沒有說明其它答案為什麼不正確。
Llama-3-8B-Instruct(英文問答)
答案正確,但是分析的邏輯有缺陷,沒有完全說明白,只談到性別問題,數字邏輯好像有點繞不清。
llama3-chinese-chat
答案錯誤,邏輯是混亂的,前言不搭後語,沒有邏輯性。
Qwen1.5-7B-Chat
答案是正確的,但是邏輯不太通順,說著性別,就跳到數量上去了。
猜數字遊戲程式設計
Llama-3-8B-Instruct(中文問答)
程式碼完整,沒有明顯問題,但是還是會冒英文。
Llama-3-8B-Instruct(英文問答)
程式碼完整,沒有明顯問題。
llama3-chinese-chat
程式碼正確,但是不夠完整,還需要更多提示。
Qwen1.5-7B-Chat
程式碼完整,沒有明顯問題。
測試結論
根據上邊的測試結果,有一些結論是比較明確的。
Llama-3-8B的中文能力確實不太行,最明顯的是時不時會冒一些英文,更重要的是使用中文時輸出的內容偏簡單化,邏輯上不那麼嚴謹。
網友訓練的 llama3-chinese-chat 問題比較多,可能是訓練資料不足,或者訓練引數上不夠優秀,回答問題過於簡略,邏輯性不夠,穩定性也不太行,經常輸出各種不一樣的答案。建議只是玩玩,可以學習下它的訓練方法。
Llama-3-8B的邏輯分析和數學能力不太行?至少在回答上邊的雞兔同籠問題和小明家孩子的情況上表現不佳,這是什麼原因呢?訓練語料的問題?但是我使用Llama-3-70B時,它可以正確且圓滿的回答這兩個問題,這就是權重引數不夠的問題了,8B引數的能力還是差點。
Llama-3-8B的英文能力總體感覺還可以,但實測也沒有那麼驚豔,總有一種缺少臨門一腳的感覺,有點瑕疵。說它媲美或者超越百億引數的模型,這個是存在一些疑慮的。
Qwen1.5-7B-Chat在這幾個問題的表現上還不錯,不過很可能是這幾個問題都學的很熟練了,特別是雞兔同籠問題,大語言模型剛剛火爆的時候在國內常常被拿來做比較使用。目前還沒有完整的Llama-3和Qwen1.5的評測對比資料,Llama-3公開的基準測試很多使用了few-shot,也就是評估時先給出幾個問答示例,然後再看模型在類似問題上的表現,關注的是學習能力。根據HuggingFace上公開的資料,僅可以對比模型在MMLU(英文綜合能力)和HumanEval(程式設計)上的的表現,比較突出的是程式設計能力,如下面兩張圖所示:
企業或者個人要在業務中真正使用,感覺還得是百億模型,準確性和穩定性都會更好,百億之下目前還不太行,經常理解或者輸出不到位,目前感覺70B引數的最好。
對於Llama-3-8B,如果你使用英文開展業務,又不想太高的成本,不妨試試,但是需要做更多增強確定性的工作,比如最佳化提示詞、做些微調之類的,至於中文能力還得等國內的廠商們再努力一把,目前還不太行。
Llama-3的線上體驗地址請移步這裡:效能直逼GPT4,Llama3的三種線上體驗方式。