https://arxiv.org/pdf/2112.08810
這篇文章很牛逼。
https://aclanthology.org/2022.acl-short.76.pdf
有個文章模仿了一下,大概是對基座模型引數加噪聲之後再到下游任務上微調,中了 ACL。zhihu 分析文章全是噴提升有限的,真蚌埠住了
這 paper 似乎還不分析理論。但是有另一篇在 embedding 上加噪聲的似乎就寫得不錯:https://arxiv.org/pdf/2310.05914
https://arxiv.org/pdf/2112.08810
這篇文章很牛逼。
https://aclanthology.org/2022.acl-short.76.pdf
有個文章模仿了一下,大概是對基座模型引數加噪聲之後再到下游任務上微調,中了 ACL。zhihu 分析文章全是噴提升有限的,真蚌埠住了
這 paper 似乎還不分析理論。但是有另一篇在 embedding 上加噪聲的似乎就寫得不錯:https://arxiv.org/pdf/2310.05914