書生·浦語大模型全鏈路開源體系——學習筆記day2&day3--純純新手入門

windiest發表於2024-04-05

學習連結:tutorial/helloworld/hello_world.md at main · InternLM/tutorial (github.com) 【精彩,照著做就能體驗很多本來遙不可及的東西】

筆記分享連結:https://github.com/InternLM/tutorial/discussions/37

本筆記定位是對學習連結的補充和小白髮牢騷,希望大佬能願意點評一下,還有和剛入門的朋友們一起交流。

上回說到,俺是純新手,先記錄一些小白特有的體會:

1、平臺給的算力很充足。一開始很忐忑學得慢會不會浪費算力的時間,但是一步一步照著做,仔細看,其實一節課三四小時就夠了。而目前為止,平臺送了快20個小時。

2、雲平臺介面既簡潔又完美。簡潔的網站,完美的jupyter、終端、vscode三合一。day2主要使用jupyter和終端,所以不用擔心平臺不熟悉。感覺比colab好用。

說完初見印象,下面是學習過程

3、在終端介面,每個程式執行完會跳出格式為(XXX)XXXXXX# 的句子,提示輸入下一句,如果沒跳出來,就等待他執行,或者ctrl+C停止,或者關了重開。下面就是等待的樣子,不要像我這樣乾等著或者還沒執行完就輸入新句子。此外,貼上鍵有shift+insert。如果ctrl+V用不了可以試試。

4、本地的powershell也是這樣的,當輸入連結命令後,就沒有任何反應了。原來沒有反應就表示他已經連上了。後來把intern的雲主機關掉以後,本地連結自動斷了,才提示說它斷了。第一次用還猶豫了一會,難道這就成功了嗎?

ssh -CNg -L 6006:127.0.0.1:6006 root@ssh.intern-ai.org.cn -p 34887

4、感覺學習的核心就是部署和使用,部署的話就是儘量復刻大佬的辦法,避開潛在的坑。使用就是入門者最關心好奇的問題了,

做第四個的時候遇到的問題:

第四個專案快速複製

conda activate xcomposer-demo
mkdir -p /root/model/Shanghai_AI_Laboratory
cp -r /root/share/temp/model_repos/internlm-xcomposer-7b /root/model/Shanghai_AI_Laboratory
cd /root/code/InternLM-XComposer
python examples/web_demo.py  \
    --folder /root/model/Shanghai_AI_Laboratory/internlm-xcomposer-7b \
    --num_gpus 1 \
    --port 6006

lass 'transformers_modules.internlm-xcomposer-7b.modeling_InternLM_XComposer.InternLMXComposerForCausalLM'>
/root/code/InternLM-XComposer/examples/web_demo.py:1068: GradioDeprecationWarning: The `style` method is deprecated. Please set these arguments in the constructor instead.
chat_textbox = gr.Textbox(
Running on local URL: http://0.0.0.0:6006

Could not create share link. Missing file: /root/.local/lib/python3.10/site-packages/gradio/frpc_linux_amd64_v0.2.

Please check your internet connection. This can happen if your antivirus software blocks the download of this file. You can install manually by following these steps:

1. Download this file: https://cdn-media.huggingface.co/frpc-gradio-0.2/frpc_linux_amd64
2. Rename the downloaded file to: frpc_linux_amd64_v0.2
3. Move the file to this location: /root/.local/lib/python3.10/site-packages/gradio

方便複製2:

conda activate internlm-demo

cd /root/code/InternLM

ssh -CNg -L 6006:127.0.0.1:6006 root@ssh.intern-ai.org.cn -p 34887
ssh -CNg -L 6006:127.0.0.1:6006 root@ssh.intern-ai.org.cn -p 34890
 

bash
conda activate internlm-demo # 首次進入 vscode 會預設是 base 環境,所以首先切換環境
cd /root/code/InternLM
streamlit run web_demo.py --server.address 127.0.0.1 --server.port 6006

按照教程的步驟做,就做出來一個回答問題的機器人。挺好玩的,雖然說話比較慢,但是能寫python程式碼。讓它手撕平衡樹。

day3的作業:部署一個知識庫

整個流程大概是:

下載文字檔案,主要是txt和md,作為資料庫。

這些資料庫來自:xtuner,opencompass,lagent等等。位置在root/data裡面。但是對於其中的結構還是不太瞭解。

接著是,處理資料。包括:獲取檔案、載入檔案、構建向量資料庫、開源詞向量模型。……

然後把internlm接入langchain中,構建檢索問答鏈,

最後部署web demo,如上面截圖。

相關文章