書生浦語大模型實戰營第二期參營總結
動機
在歷史洪流面前,人輕浮得像一粒沙:今年的Java後端又要炸了。作為一條研究方向為影像處理、導師不放暑期實習的碩士牛馬,自覺疲憊。既然對就業的準備暫時略感疲憊,科研又有導師天天push自然不會太主動,那就換換心情學點LLM相關的內容滿足自己的興趣。剛好有好友推薦這個實戰營,一番盤算後決定參加。一方面,學這些大語言模型相關的知識能夠滿足我的個人興趣愛好;另一方面,搞這些對於現在手上的課題有可能是有幫助的,還有一個充滿冒險的考量:未來十年是屬於人工智慧技術而非前端後端客戶端的,搞這些未必不能就業。
這個實戰營是上海人工智慧實驗室為推廣自己的LLM而開設的。書生·浦語是上海人工智慧實驗室大模型品牌,第二期的書生浦語大模型實戰營正是上海人工智慧實驗室為推廣旗下大模型及相關開源工具於 2024 年 3 月 26 日至 2024 年 4 月 26 日舉辦的線上培訓,主要包括RAG、模型微調、智慧體和模型評測等內容,由一些專案的貢獻者對專案進行講解。這次參營,一來學一些當下最火熱的LLM相關的知識和技術,二來方便自己摸摸A100。一個月過去了,實戰營也是很快就接近尾聲。每次結束都會免不了傷感,就會情不自禁地想寫總結,所以便有了這篇部落格。
收穫
參加這個訓練營是有收穫的。
首先是學習了LLM相關的技術。透過這個渠道,我學習到了LLM相關的技術,至少知道了這些東西大概都是怎麼回事。這實戰營是一個引子,雖然講得未必有多詳細,但是它強制寫學習筆記導致我犯強迫症,在撰寫每一篇筆記的時候都會去網上找一些其他的資料來豐富細節介紹原理。雖然這些筆記現在的質量還算不上高,但是後續我會完善大語言模型學習
這個系列的部落格,使這個合集介紹到更多底層細節。這個實戰營的主要優勢有:
- 這個課程帶我從0開始認識大模型的一些東西。
- 課程文件對小白非常友好。
- 社群提供了一些有用的資源推送。比如 Llama 3 釋出後不久就推了個直播分析 Llama 3,感覺就像加入了一個樂於討論LLM技術的圈子,大家共同成長。
然後是我個人在部落格寫作這一塊的提升。在參營之前,我從來沒有寫過這麼長的技術部落格,但是現在這個實戰營給了一個due,給了作業評比與優秀學員機制,所以就有了一些額外的動力。LMDeploy量化實戰這個作業,1200行;Demo實操作業,1600行;我當然知道里面有多少廢話,但是在這之前我想都不敢想,也根本沒有這個毅力堅持寫完。我也從來沒有寫過這麼多的部落格。這一系列的部落格都被打上了“書生浦語大模型實戰營
”的tag,我在後臺看已釋出的有14篇,加上這篇總結應該會有15篇,全都是在一個月之內完成的,如此高頻的輸入部落格確實是第一次。我寫的部落格也沒被這麼多人看過。我部落格的PV、UV集體創新高,我這小菜雞看到這幾十的瀏覽量就很高興。我看了下訪問來源,更多讀者實際上是從谷歌搜尋進入部落格的,而實戰營飛書群引流的作用比我預想的要小不少。這些作業其實有一部分是我在實驗室摸魚的時候做完的,部落格則是晚上熬夜寫的,為了這些部落格這個月可沒少比平時晚睡。現在回想起這些還有些驕傲。
要說這個課程的缺點,其實也是有的。比如模型微調這一節,影片前面的理論部分不知所云,而理論與實操又是兩個完全不同的東西。再比如部分實操僅僅停留在對工具的使用上,對於關鍵程式碼教程裡面則直接教大家“複製貼上”完事,不免懷疑我是不是看了一個大型廣告。
總結
我的研究方向是影像處理,這個實戰營出現在這裡,就像為我開啟了一扇窗,讓我看清如今最熱門的LLM的發展現狀。當然我相信大視覺模型(Foundation Vision Model)和世界模型(Large World Model)終有釋出的一天,等到那一天到來,我也會像現在一樣如此熱烈地瞭解相關內容。
彩蛋
完成核心課程學習後不久,導便讓我調研關於多模態大模型相關的內容,實戰營中關於LLaVA的部分剛好可以用上。