Nomic Embed:能夠復現的SOTA開源嵌入模型

deephub發表於2024-03-10

Nomic-embed-text是2月份剛釋出的,並且是一個完全開源的英文文字嵌入模型,上下文長度為8192。它在處理短文和長文字任務方面都超越了現有的模型,如OpenAI的Ada-002和text-embedding-3-small。該模型有137M個引數在現在可以算是非常小的模型了。

模型、訓練程式碼以及一個包含2.35億文字對的大型資料集都已經發布,我們可以復現、審計和重新構建這個先進的嵌入模型。

https://avoid.overfit.cn/post/2ed4f1b0173a444f836ccfaee424db0d

相關文章