訊飛星火大模型與New Bing實測對比

張善友發表於2023-05-07

原文網址 : https://www.cnblogs.com/shanyou/p/17378930.html

昨天科大訊飛釋出了訊飛星火認知大模型，在釋出會現場實測大模型的7種核心能力，併發布了它在教育、辦公、汽車、數字員工領域的應用成果。科大訊飛董事長劉慶峰表示：認知大模型展示了通用人工智慧的曙光，訊飛星火認知大模型已在文字生成、知識問答、數學能力3種能力上超越ChatGPT。

NewBing 也全面開放給使用者，我參考光哥的《ChatGPT與New Bing實測對比，New Bing真的是採用GPT-4嗎？》文章中的三個推理能力測試進行了對比檢測。

New Bing新必應
訊飛星火大模型

透過幾個Prompt的測試，訊飛星火大模型輸出結果與New Bing的結果差遠了，3道題全部錯誤，光哥文章中已經總結了結論，New Bing用的模型應該是ChatGPT 3.5。

問題1：一艘船10天可以渡過太平洋，請計算10艘船多少天可以渡過太平洋。

訊飛星火大模型：錯誤

New Bing：正確

問題2：假設樹上有10只鳥，獵人開槍打死一隻，請計算樹上還剩下幾隻鳥？

訊飛星火大模型：錯誤

New Bing：錯誤

問題3：我爸媽結婚的時候為什麼不邀請我

訊飛星火大模型：錯誤

New Bing：錯誤

訊飛星火大模型在推理能力上相比ChatGPT 還差很遠，他們的目標：我們計劃今年10月底整體趕超ChatGPT。到時繼續測試這三個問題來檢測，期待他們能夠去實現這一目標。

new bing功能使用
2023-03-08
首個實時 AI 影片生成技術釋出；科大訊飛釋出星火大模型 4.0 丨 RTE 開發者日報
2024-06-28
AI大模型開發者日報
科大訊飛t20和c10 區別對比評測
2024-08-03
訊飛星火大模型最新4.0Ultra版本api呼叫教程python程式碼（超詳細教程，1分鐘學會）
2024-06-27
大模型APIPython
科大訊飛p30 5G版和p30對比評測
2024-08-04
科大訊飛t20pro和X3 Pro區別對比評測
2024-08-04
對比測試工具平臺讓財務測試飛起來
2018-12-14
AI模型對比
2024-06-21
AI模型
實測ChatGPT、Bing、文心一言
2024-04-12
ChatGPT
Hyperf 與 Lumen 的壓測比對
2019-12-15
python中__init__ 和__new__的對比
2021-09-11
Python
三星Note9與iPhone XS的區別對比三星Note9對比iPhone XS那個好？
2018-11-02
iPhone
騰訊雲與阿里雲的對比
2020-10-01
阿里
[125]討論資訊比對-盤點與對賬
2018-08-05
三星S10+與iPhone XS Max對比評測三星S10+和iPhone XS Max哪個好？
2019-03-08
iPhone
科大訊飛學習機t20和P30對比
2024-08-03
科大訊飛T20pro和步步高a7對比
2024-08-04
jwt 實踐以及與 session 對比
2018-07-21
JWTSession
開源OCR模型對比
2024-04-16
模型
科大訊飛學習機哪款值得買2024 科大訊飛s30和t20區別對比
2024-08-03
S3
new self()與new static()
2021-08-09
OSI模型與 DOD模型的比較
2020-10-18
模型
locust 與 jmeter 效能測試對比會更優？
2020-12-31
JMeter
星外主機管理系統與ZKEYS公有云管理系統對比
2020-07-09
Python==與is對比
2019-02-16
Python
科大訊飛p30和作業幫X28 區別對比
2024-08-05
AI錄音筆戰場：搜狗與科大訊飛的對決
2020-05-21
AI
espnet中的transformer和LSTM語言模型對比實驗
2022-03-30
ORM模型
視覺化經典模型的對比實驗總結
2022-03-05
視覺化模型
谷歌的時間序列預測的基礎模型TimesFM詳解和對比測試
2024-07-18
谷歌模型
函式形參與實參的體會與對比
2019-03-28
函式
Kotlin 與 Java 對比
2018-11-01
KotlinJava
pyppeteer與selenium對比
2024-03-30
對比Riak與HbaseOS
2022-03-21
redis與rabbitmq對比
2022-07-11
RedisMQ
全面對比：天工大模型 vs 紫東太初大模型
2024-07-17
大模型
Altair SimSolid模擬速度與準確性測試對比
2022-10-13
AISolid
DeepSeek 與 ChatGPT 對比：軟體測試人員視角
2025-02-11
ChatGPT

訊飛星火大模型 與New Bing實測對比

相關文章

訊飛星火大模型與New Bing實測對比