微軟小語言模型Phi-3-mini測試體驗

banq發表於2024-04-25

微軟新的小語言模型 Phi-3-mini,它的效能讓人震驚。儘管只有 30 億個引數,但該模型功能強大,可以在各種任務中提供一流的結果。

Phi-3-mini 的效率改變了遊戲規則,使我們能夠在本地執行大型語言模型而不犧牲效能。其多功能性凸顯,可以輕鬆處理從創意內容生成到複雜問題解決的所有事務。

Phi-3-mini 由 Microsoft 開發並在 MIT 許可下開源,對於任何想要探索大型語言模型世界的人來說,它是一個可靠且易於訪問的選擇。

相關:

  • 連結到帶有 4K 代幣上下文視窗的 Phi-3-mini
  • 連結到帶有 128K 代幣上下文視窗的 Phi-3-mini
  • HuggingChat 演示

網友:
1、Phi-3-Mini 因其小巧的尺寸而令人印象深刻。根據我對它的簡短測試經驗,它感覺幾乎像 7b 型號,但又不完全一樣。

2、小型語言模型應該在常識方面表現不佳,但至少在地理方面比 7B 模型要好。我總是向LLM詢問我所居住的城鎮的資訊(一個不知名的小城鎮,人口約 8000 人)。 Phi3不僅給了我國家、省份和地區,還給了我GPS座標。只差了5公里。
我還測試了根據上下文和一些說明編寫文字。它按照指示寫了一些不錯的東西,雖然有一些幻覺,但沒什麼奇怪的。在這項任務中,它也比一些 7b 模型做得更好。

3、我測試了一些基本的東西,包括程式碼生成、推理和一些常識,它效果很好

4、我感覺在聊天上llama3和phi3相當接近
但是:有Phi-3 4b 做不到,但 llama-3-8b 可以輕鬆做到的,例如下面要求:

建立 10 個以“蘋果”一詞結尾的句子。記住“蘋果”一詞必須位於末尾


5、對我來說,它非常頑固,在錯誤時拒絕承認,為無意義的答案辯護,比如激烈地指出三角形的斜邊是等腰三角形邊長的兩倍。

6、它的大小非常好,但 4b 引數.. 仍然只是 4b 引數。你很快就會達到其創造力和邏輯的極限。但它的邏輯確實很好。
我使用的是 Ollama F16 版本,它有很多幻覺,似乎是在我問它純粹的數學問題時觸發的,比如“4+4=?”它的反應是我之前在談話中問過它的一些幻覺。
我對 Phi3-Medium 最感興趣,因為它非常適合 12GB / 16GB GPU,如果它像 Phi3-mini 一樣令人印象深刻,那麼它應該會很好。

7、你不知道phi-2有多瘋狂嗎?它可能會胡言亂語,還會侮辱使用者

8、GGUF 可以在這裡找到:https://huggingface.co/QuantFactory/Phi-3-mini-128k-instruct-GGUF

9、這麼小的東西讓我開始考慮在一個小樹莓派上獨立執行它的可能性,這樣它就可以在家裡的任何地方進行語音啟用。這似乎比將某些東西無線連線到我的主機更有趣。

10、就其本身而言,它是一個非常好的3B。它真正的亮點在於它在代理鏈中的效率,無論如何,這大大提高了質量。該模型的代理潛力超過了其聊天機器人潛力,我認為微軟再次在大公司的人工智慧遊戲中發揮了最佳作用。

11、人們一直說它可以在手機上執行,​​如何讓它在 iPhone 15 上本地執行的指南:
https://apps.apple.com/us/app/private-llm-local-ai-chatbot/id6448106860

12、它在我的FaRel-3 基準測試中獲得了 53.33 分,對於如此小的模型來說,這是一個相當令人印象深刻的結果。只是比 Llama-3 8B 差一點點。

13、就其尺寸而言,它很好。但在回答一些問題時,它有太多錯誤。我想嘗試 RAG 的 128k 版本,因為這可能是它的最佳用途。
至少,它可能是一個在 Raspberry Pi 或 miniPC 上作為家庭助手執行的好模型。

14、我認為這個小型號非常適合 8GB M1 MacBook Pro - 不幸的是,當使用 GPT4ALL 與 RAG 進行測試時,它產生了一堆廢話。這確實很不幸,因為它在 M1 上的執行速度超過 20 t/s。

15、如此小的模型有哪些用例?

  • 它可以幫助您立即生成和總結內容,但最重要的是,它是您可以在智慧手機上執行的最佳語言模型之一。
  • 將它用於學校專案。我首先嚐試使用 stablelm2,但它不遵循命令,太冗長並且每次都有不同的答案。這是倉庫:https://github.com/markuslahde/LLM_enhanced_Google_search
  • 小型模型有很大的潛力,它們擅長以嚴格的格式(json、列表、字典等)返回響應並保持一致性。

相關文章