曾讓Kimi「崩了」的探索版有多厲害?10倍搜尋量、精讀超500頁面,一手實測來了

AI好好用發表於2024-10-14

AI好好用報導

編輯:楊文
Kimi國慶「憋」大招,「憋」出個探索版。

前不久,市場上就有傳言稱,月之暗面國慶「憋大招」。

至於這個「大招」具體是啥,眾說紛紜:

有人說和多模態有關,還有人說是關於深度推理的。

不過,就在上週五,月之暗面高調宣佈,上線 Kimi 探索版。

曾讓Kimi「崩了」的探索版有多厲害?10倍搜尋量、精讀超500頁面,一手實測來了

訊息一出,不少體驗者紛紛湧入官網,「Kimi 崩了」也一度登上熱搜。

圖片

那麼,這個探索版厲害在哪兒?它與 Kimi 普通版有啥區別?

這麼說吧,Kimi 探索版的搜尋量是普通版的 10 倍,一次搜尋即可精讀超過 500 個頁面。

而且,它還能模擬人類的推理思考過程,多級分解複雜問題,並進行深度搜尋,即時反思改進結果。

這似乎和 OpenAI 的 o1 有著異曲同工之妙。

Kimi 官方也很自信,「如果 Kimi 搜不到的資訊,那大機率使用者也很難自己透過傳統搜尋引擎找到」。

接下來,我們就實地測評一下,看看 10 倍搜尋量、一次搜尋可精讀超 500 個頁面的 Kimi 探索版,到底是搞噱頭還是真實力?

Kimi 官網連結:https://kimi.moonshot.cn/

1. 中國票房過四十億的電影都講了什麼故事?

我們先透過這個娛樂性的問題,一窺 Kimi 探索版的「腦回路」。

圖片

在答題之前,它會像分析師一樣,預先規劃解決問題的整體策略,將複雜問題分解為層次化的子問題,然後分步來執行。

具體來說,它先全網搜尋中國票房過 40 億的電影,然後查詢這些電影的故事情節介紹。

在搜尋過程中,它會把複雜提問轉換成多個匹配的搜尋關鍵詞,並基於前一步的搜尋結果來實時生成下一步的搜尋關鍵詞。

圖片

此外,它還能即時反思搜尋結果,在發現第一次回答中的情節簡介存在資訊缺失時,會主動補充更多內容。

圖片

我們又讓它來總結上榜的電影具體票房,其回答與搜尋引擎上的結果一致。

圖片

那麼,Kimi 普通版的表現如何呢?

其工作流程是先理解問題,然後透過較為粗略的關鍵詞搜尋網頁。

圖片

從網頁閱讀數量來看,普通版僅閱讀了 25 個網頁,而探索版則是 40 個。

雖然普通版整體上回答沒毛病,但是對於影片故事的介紹過於簡單,也無法反思搜尋結果。

圖片

2. 請幫我總結一下特斯拉釋出會

前幾天的特斯拉釋出會算是科技圈的大新聞了。

我們就讓它總結一下特斯拉釋出會的情況。

圖片

它閱讀了 11 個網頁,並在介面右側顯示所有的搜尋結果,從中提取出四大亮點,分別是 Robotaxi、Robovan、Optimus 機器人和 FSD 自動駕駛,還分條縷析地介紹了它們的功能、設計、成本等。

我們進行了一一比對,回答全部正確,沒有出現滿嘴跑火車的現象。

我們繼續追問,特斯拉釋出了無人駕駛計程車,為啥股票會跌?

Kimi 探索版不僅搜尋了中文網站,還使用英文關鍵詞,網羅了 CBS、CNN 等外文媒體報導。

圖片

如果我們點選它回答中的小引號,介面右側則會顯示出引用的原文資訊,這極大地降低了幻覺發生的可能性。

圖片

3. 甄嬛的生日和薛寶釵的生日相差幾天?

我們再來問個無厘頭的問題。

一直以來,大模型都是重度偏科者,寫小作文嘎嘎好使,但一到數學題就抓瞎 ——

9.9 和 9.11 誰大分不清,strawberry 幾個 r 搞不明白。

不過,計算甄嬛和薛寶釵這倆八杆子打不著的影視人物的生日,Kimi 探索版有一套自己的解題思路。

圖片

在答題之前,Kimi 探索版先是全網搜尋甄嬛和薛寶釵的生日分別是哪天,並在頁面右側顯示所有的搜尋結果。

然後來到重頭戲,計算二者生日差值。

它先算出從正月二十一到四月十七,每個月有幾天,然後分別算出總天數,全部相加即可。

不過,它的回答還是有瑕疵,因為農曆月份長度以朔望月為準,正月的天數並不固定,因此最終的計算結果仍有偏差。

4.Elon Musk 的生日和 Sam AItman 的生日相差幾天?詳細介紹計算過程。

農曆的計算方法過於複雜,我們也搞不清楚,因此,就讓 Kimi 探索版再計算一下馬斯克和奧特曼的生日差。

圖片

我們專門用日期計算器檢驗了一下,Kimi 探索版回答正確。

5. 奧利弗在星期五摘了 44 個獼猴桃。然後在星期六摘了 58 個獼猴桃。星期天,他摘的獼猴桃數量是星期五的兩倍,但其中 5 個比平均大小要小。奧利弗有多少個獼猴桃?

前天,機器之心釋出了一篇題為《給小學數學題加句「廢話」,OpenAI o1 就翻車了,蘋果新論文質疑 AI 推理能力》的文章。

我們就拿文中的數學題來測一下 Kimi 探索版。

先來個正常的:奧利弗在星期五摘了 44 個獼猴桃。然後在星期六摘了 58 個獼猴桃。星期天,他摘的獼猴桃數量是星期五的兩倍,奧利弗有多少個獼猴桃?

圖片

Kimi 探索版先把思路梳理得清清楚楚,然後每一步的執行都相當準確。

我們又在這道題目中,加了一句廢話「但其中 5 個比平均大小要小」,OpenAI 的 o1 就翻了車。

圖片

但是,Kimi 探索版竟然沒有被誤導,得出了正確答案。

圖片

目前,Kimi 探索版已覆蓋全量使用者。大家也抓緊去薅一波吧~

工具連結——

Kimi官網連結:https://kimi.moonshot.cn/

以後我們會帶來更多好玩的AI評測,也歡迎大家進群交流。

圖片

相關文章