llama實驗

张扬zy發表於2024-10-07

嘗試在實驗室伺服器上本地執行llama,看看llama可以幹什麼?

然後按照官網執行時報錯:
…………
File "/defaultShare/archive/zhangyang/llama3/llama/model.py", line 288, in forward
mask = torch.triu(mask, diagonal=1)

透過new bing的回答進行如下嘗試
在model檔案的288行左右新增

mask = mask.to(torch.float32) # mask = torch.triu(mask, diagonal=1)

從而可以成功執行

細看程式碼參考:
https://www.cnblogs.com/xiangcaoacao/p/18173863
https://blog.csdn.net/weixin_43508499/article/details/132554559
https://zhuanlan.zhihu.com/p/679640407

細節問題:

  1. 快取實現
  2. 旋轉編碼使用的函式

想法上:
為什麼提示工程有效?
https://blog.csdn.net/2401_82469710/article/details/138614802