DeepSeek-V2是一個強大的開源混合專家(MoE)語言模型,透過創新的Transformer架構實現了經濟高效的訓練和推理。該模型總共擁有2360億引數,其中每個令牌啟用21億引數,支援最大128K令牌的上下文長度。
在開源模型中,DeepSeek-V2實現了頂級效能,成為最強大的開源MoE語言模型。在MMLU(多模態機器學習)上,DeepSeek-V2以較少的啟用引數實現了頂尖的效能。與DeepSeek 67B相比,DeepSeek-V2顯著提升了效能,降低了42.5%的訓練成本,減少了93.3%的KV快取,並將最大生成吞吐量提高了5.76倍。
我們這裡主要實現DeepSeek的主要改進:多頭隱性注意力、細粒度專家分割和共享的專家隔離
https://avoid.overfit.cn/post/317a967c8dac42ee98f96d8390851476