前段時間,微軟搞了個烏龍:隆重地開源了 WizardLM-2,又在不久後撤回得乾乾淨淨。
據現在可以查到的 WizardLM-2 釋出資訊,這是一個「真正媲美 GPT-4」的開源大模型,在複雜聊天、多語言、推理和代理方面的效能得到了提高。
該系列包括三個模型:WizardLM-2 8x22B、WizardLM-2 70B 和 WizardLM-2 7B。其中:
WizardLM-2 8x22B 是最先進的模型,也是對高度複雜任務進行內部評估後得出的最佳開源 LLM。
WizardLM-2 70B 具備頂級推理能力,是同等規模的首選;
WizardLM-2 7B 是速度最快的,其效能可與現有的 10 倍大的開源領先模型相媲美。
此外,透過人類偏好評估,WizardLM-28x22B 的能力「只是稍微落後於 GPT-4-1106 預覽版,但明顯強於 CommandRPlus 和 GPT4-0314。」
它會和 LLaMa 3 一樣,成為又一開源里程碑嗎?
當大家忙著下載模型的時候,團隊卻突然撤回了一切:部落格、GitHub、HuggingFace 全部 404。
圖源:https://wizardlm.github.io/WizardLM2/
團隊的解釋是:
所有 Huggingface 的朋友們,大家好!很抱歉,我們刪除了模型。我們已經有一段時間沒有釋出幾個月前的模型了,所以我們現在不熟悉新的釋出流程:我們不小心遺漏了模型釋出流程中的一個必要專案 — 毒性測試。這是目前所有新模型都需要完成的一個步驟。
我們目前正在快速完成這項測試,然後將盡快重新發布我們的模型。不用擔心,感謝關心和理解。
但 AI 社群對 WizardLM-2 的關注和討論沒有停止,疑點有幾個:
第一,被刪掉的開源專案不只是 WizardLM-2,該團隊所有的 Wizard 系列工作都不見了,包括此前的 WizardMath 和 WizardCoder。
第二,有人質疑,刪除模型權重的同時,為何連部落格也刪除呢?如果是隻是缺少測試部分,沒必要撤回得乾乾淨淨。
團隊的解釋是:「根據相關規定。」具體什麼規定?目前沒人知道。
第三,還有人猜測 WizardLM 背後的團隊已經被解僱,撤回 Wizard 系列專案也是被迫的。
不過,這種猜測被團隊否認了:
圖源:https://x.com/_Mira___Mira_/status/1783716276944486751
圖源:https://x.com/DavidFSWD/status/1783682898786152470
而且我們現在搜尋作者的名字,也並沒有從微軟官網中完全消失:
圖源:https://www.microsoft.com/en-us/research/people/qins/
第四,有人猜測,微軟撤回這個開源模型,一是因為效能過於接近 GPT-4,二是因為和 OpenAI 的技術路線「撞車」了。
具體是什麼路線呢?我們可以看一下當初部落格頁面的技術細節。
團隊表示,透過 LLM 訓練,自然界中人類生成的資料日益枯竭,而 AI 精心建立的資料和 AI Step-by-Step 監督的模型將是通往更強大 AI 的唯一途徑。
過去的一年裡,微軟團隊建立了一個完全由人工智慧驅動的合成訓練系統,如下圖所示。
大概分為幾個版塊:
資料預處理:
資料分析:使用這個 pipeline 來獲得新源資料的不同屬性的分佈,這有助於對資料有一個初步的瞭解。
加權取樣:最佳訓練資料的分佈往往與人類聊天語料的自然分佈不一致,需要根據實驗經驗調整訓練資料中各屬性的權重。
Evol Lab:
Evol-Instruct:投入了大量精力重新評估了最初 Evol-Instruct 方法中存在的各種問題,並對其進行了初步修改,新方法能讓各種智慧體自動生成高質量的指令。
Evol-Answer:引導模型多次生成和重寫回復,可以提高其邏輯性、正確性和親和力。
AI Align AI(AAA):
協同教學:收集 WizardLM 和各種授權開源和專有的最先進模型,然後讓它們協同教學並相互提高,教學內容包括模擬聊天、質量評判、改進建議和縮小技能差距等。
Self-Teaching:WizardLM 可以透過啟用學習,為監督學習生成新的進化訓練資料,為強化學習生成偏好資料。
學習:
監督學習。
階段 - DPO:為了更有效地進行離線強化學習,將優選資料分割成不同的片段,並逐級改進模型。
RLEIF:採用指令質量獎勵模型(IRM)與過程監督獎勵模型(PRM)相結合的方法,使得線上強化學習中實現更精確的正確性。
最後要說的是,任何猜測都是徒勞的,讓我們期待一下 WizardLM-2 的復出吧。