AI 在某些任務上已經超越了人類,例如影像識別、視覺推理和英語理解等領域,但在一些更復雜的任務上,例如高水平數學競賽、視覺常識推理和規劃等,AI 的表現仍然落後於人類。

工業界仍然是 AI 前沿研究的主導力量。2023 年,工業界研發了 51 個重要的機器學習模型,而學術界只研發了 15 個。值得注意的是,2023 年還有 21 個重要模型是工業界和學術界合作的成果,創下了歷史新高。

開發最先進的 AI 模型的成本越來越高。根據 AI 指數的估計,訓練這些模型所需的計算資源已經達到了前所未有的水平。例如,OpenAI 的 GPT-4 模型的訓練使用了價值約 7800 萬美元的計算資源,而 Google 的 Gemini Ultra 模型的訓練成本更是高達 1.91 億美元。

美國在頂級 AI 模型的研發方面處於領先地位。2023 年有 61 個重要的 AI 模型來自美國機構,遠遠超過了歐盟的 21 個。

目前,針對大型語言模型 (LLM) 的責任評估缺乏可靠且統一的標準。AI 指數的最新研究表明,在負責任 AI 報告方面缺乏標準化。包括 OpenAI、Google 和 Anthropic 在內的領先開發人員,主要使用不同的負責任 AI 基準來測試他們的模型。這種做法使得系統地比較頂級 AI 模型的風險和侷限性變得更加困難。

報告連結將分享到199IT知識星球,掃描下面二維碼即可查閱!