Llama3可能是產生幻覺最多的小模型

banq發表於2024-04-27

一個小模型優點是:非常善於 "說話",而且非常友好,但它確實喜歡胡編亂造:如果你問到一個它沒有太多資料的話題,它就會非常肯定地編造出完整的故事。

  • 種小模型的價值有限,無法回答任何非常識性的基本問題。
  • 就能連貫地講述任何晦澀難懂的內容而言,它甚至比 Llama1 33B 型號還要弱。
  • Airoboros 33B 的能力要強得多,它不會編造離奇的話題細節,產生幻覺的頻率較低,而且在產生幻覺時也更可信。

除了一些不需要太多知識的任務外,為什麼人們會把 Llama3 8B 和 Mixtral 7x8 放在同一個級別上?

網友:
1、 從邏輯上講,任何小模型的知識都會較少

2、我也注意到 LLaMA 3 的知識非常貧乏。當它釋出時,我向它詢問一些相當知名的人物的資訊,它經常答錯。

3、關於 llama3 有很多炒作,這是理所當然的,但它也有缺陷。當指令模型想要審查輸出或者沒有正確的資訊時,它會產生幻覺。

4、無論你使用什麼型號,任何小於 30b 的東西都會產生大量的垃圾。

5、語言模型智慧的全部秘密幾乎在於它們維持狀態的能力;也就是說,他們可以有意識地記住或立即跟蹤的變數數量。這種能力在 30b 以下是完全不存在的,直到 120b 才變得真正令人興奮。根據傳言,GPT4 是 8 節點 120b MoE,實際上很合適。

6、在我的例子中,即使是帶有 Huggingface api 的 70b 非量化模型也會產生命令列引數的幻覺。不幸的是,該模型在推理方面似乎更好,但在提供事實方面卻較差。

相關文章