2024年6月14日-15日,第6屆北京智源大會將以線下與線上結合的形式召開,線下會場設在中關村國家自主創新示範區會議中心。2024智源大會再次以全球視野,匯聚年度傑出工作研究者,交流新思想,探討新思路,引領新前沿。目前已正式開放報名渠道。
大語言模型 論壇丨6月14日下午
近年來,大語言模型取得了重要的技術進展,成為了人工智慧領域最受社會關注的研究方向之一,其應用範圍逐漸覆蓋了資訊產業的多個領域。對其底層原理與訓練方法的探索也成為了學術界與工業界的共同關注焦點。本次論壇針對大語言模型相關的基礎問題展開相關探討,主要包括思維鏈推理能力、能力湧現機理、知識機理與編輯、訓練效率最佳化、分散式訓練技術等,旨在針對這些核心議題給出最前沿的技術進展介紹。為此,本次論壇邀請了來自學術界與工業界的七位優秀講者,分別針對各自擅長的研究議題進行報告,並且將在報告後透過圓桌形式對於若干公眾所關注的問題進行深入討論,使得聽眾們能夠對於大模型關鍵技術有更為深刻的認識與理解。
論壇議程
論壇主席
趙鑫,中國人民大學教授,智源學者
趙鑫,中國人民大學高瓴人工智慧學院教授。2014年7月於北京大學獲得博士學位,隨後進入中國人民大學工作至今。研究領域為資訊檢索與自然語言處理,共計發表論文200餘篇,谷歌學術引用1.8萬餘次,曾主導研發了玉蘭大語言模型,組織編寫了大語言模型綜述論文《A Survey of Large Language Models》(預印版文章)以及《大語言模型》中文書。曾榮獲2020年吳文俊人工智慧優秀青年獎、ECIR 2021時間檢驗獎,CCF-IEEE CS青年科學家獎。
宋睿華,中國人民大學長聘副教授
宋睿華博士,國家高層次人才特聘教授,現任中國人民大學高瓴人工智慧學院長聘副教授。曾任微軟亞洲研究院主管研究員、微軟小冰首席科學家。近期研究興趣為多模態理解、創作和互動。發表學術論文100餘篇,申請專利30餘項。曾獲WWW 2004最佳論文提名獎,AIRS 2012最佳論文獎和CLWS 2019優秀論文獎,2022年度教育部自然科學一等獎。她的演算法完成了人類史上第一本人工智慧創作的詩集《陽光失了玻璃窗》。2021-2022年作為學術帶頭人,釋出文瀾系列中文多模態對齊大模型,併成功落地快手、OPPO等企業。2023年,參與釋出玉蘭大語言模型,完成從基礎模型到對話模型的自研訓練。曾擔任SIGIR短文和講習班主席、ACL領域主席、EMNLP資深領域主席和Information Retrieval Journal主編。
演講主題及嘉賓介紹(按照發言先後順序)
1、是否所有Transformer結構都具備思維鏈推理能力?
報告簡介:國內外有許多研究工作提出多種Transformer的高效變體,但對於眾多模型變體,有許多問題需要回答:這些變體模型是否存在理論缺陷?面臨具體實際問題時模型結構應當如何選擇?到底哪些變體模型能真正完美地取代Transformer?最近的研究發現,思維鏈(Chain-of-Thought)提示(CoT)可以顯著提高大型語言模型(LLMs)的效能,特別是在處理涉及數學或推理的複雜任務。儘管經驗上取得了巨大的成功,但CoT背後的機制以及它如何發揮LLMs的潛力仍然難以捉摸。是不是所有大模型都具備思維鏈推理能力?在這個talk中,我們首次嘗試在理論上回答這些問題,並展示不同模型的能力上限差異。
賀笛,北京大學助理教授
賀笛,北京大學智慧學院助理教授,前微軟亞洲研究院主管研究員。主要從事機器學習模型、演算法與理論方向的研究工作,已發表ICML、NeurIPS、ICLR等重要期刊/會議論文50餘篇,谷歌引用數超過8000。所設計的模型、演算法多次被DeepMind、OpenAI、微軟、Meta等國際頂尖研究機構使用。獲得機器學習頂級國際會議ICLR 2023傑出論文獎和ICLR 2024傑出論文獎提名。
2、ChatGLM:理解與探索大模型能力湧現
報告簡介:基礎大模型在意圖感知、指令跟隨、目標規劃等方面展現出強大的泛化能力,為智慧體的研究和應用提供了通用模型基座。報告將分享GLM-4模型智慧體能力提升研發過程中的探索,我們發現預訓練損失可以比模型大小或計算量更好地預測語言模型的湧現能力,進而合理指導模型訓練與能力提升。以GLM-4 All Tools模型為列,其可實現自主理解使用者意圖,自動規劃複雜指令,自由呼叫網頁瀏覽器、程式碼直譯器以及多模態模型等,以完成複雜任務。
詳見 https://github.com/THUDM。
東昱曉,清華大學副教授
東昱曉,清華大學計算機系副教授,知識工程實驗室(KEG)成員,曾工作於臉書人工智慧和微軟總部研究院。研究方向為資料探勘、圖機器學習和基礎大模型,相關成果應用於十億級使用者社交網路和知識圖譜。入選IJCAI Early Career Spotlight,獲2017年ACM SIGKDD博士論文獎提名和2022年ACM SIGKDD Rising Star Award。
3、大語言模型知識機理與編輯問題
報告簡介:掌握知識一直是人工智慧系統發展的核心追求。在這方面,大語言模型展示了巨大的潛力並在一定程度上掌握和應用了廣泛的知識。然而,我們對於大語言模型如何內在地習得、儲存知識等方面的理解仍然非常有限,我們也無法及時對大語言模型內部的錯誤及有害知識進行修正。在本次Talk中,我將基於團隊最近的研究成果,探討大語言模型的知識機理與編輯問題,並介紹知識迴路和知識更新、擦除的新方法。
張寧豫,浙江大學副教授
張寧豫,浙江大學副教授,浙江大學啟真優秀青年學者,在高水平國際學術期刊和會議上發表多餘篇論文,6篇入選Paper Digest高影響力論文,1篇被選為Nature子刊Featured Articles。主持國家自然科學基金、計算機學會、人工智慧學會多個專案,獲浙江省科技進步二等獎,IJCKG最佳論文/提名2次,CCKS最佳論文獎1次, 擔任ACL、EMNLP領域主席、ARR Action Editor、IJCAI 高階程式委員,主持開發大語言模型知識編輯工具EasyEdit (1.5k)。
4、小鋼炮MiniCPM是如何煉成的?
報告簡介:MiniCPM系列是全球領先的端側模型,包括旗艦端側模型MiniCPM-2.4B和MiniCPM-1.2B,以及全球最強端側多模態模型MiniCPM-V系列。透過SFT(指令微調)與DPO(對比學習)最佳化,MiniCPM在各種公開評測集上(如MTBench等)展現出優異效能,甚至超越了Llama2-13B、MPT-30B和Falcon-40B等現有模型。MiniCPM特別支援Int4量化,顯著降低儲存和計算成本,同時在手機等端側裝置上也能實現準確率損失較小的實時推理。該系列模型具備強大的OCR能力,能夠處理高達180萬畫素的影像,支援中英雙語互動,並透過RLHF技術降低幻覺率,增強多模態互動體驗。此外,MiniCPM的開源為行業交流和發展提供了便利,其輕量高效能設計反映了AI原生應用和AI原生硬體的發展趨勢。MiniCPM-V系列支援在多種裝置上的高效部署,包括安卓和Harmony系統的手機,並且可透過多種方式進行推理和微調。此次報告將分享這一系列輕量高效能模型的研究方法與技術路徑,包括其在開放基準測試中的表現以及在不同裝置上的高效部署方案。
曾國洋,面壁智慧聯合創始人兼CTO
曾國洋,面壁智慧聯合創始人兼CTO。悟道·文源中文預訓練模型團隊骨幹成員。2021年作為聯合發起人建立了OpenBMB開源社群,是模型訓練加速和推理加速BMTrain、BMInf的主要作者之一,也是 CPM-Ant、CPM-Bee 兩期大模型的主要完成人之一。
5、大語言模型預訓練的效率最佳化
報告簡介:由ChatGPT引領的大語言模型是當前人工智慧技術最前沿的研究方向。基於百億千億甚至萬億的自迴歸無監督語言模型在諸多工中都達到了驚人的效果。實現大語言模型能力突破的關鍵方法是所謂的擴充套件法則(scaling law),即不斷的加大預訓練模型引數的大小,同時不斷提升訓練資料量的大小。然而,在真正的預訓練過程中,除了本身計算資源的擴充套件之外,還需要不斷提升計算效率的提升,在單位資源時間內對資料進行更高效率的壓縮。本報告將著重介紹當前業界在提升預訓練效率方向的若干嘗試,包括模型結構的最佳化、訓練方案的最佳化、資料的最佳化等。
王炳寧,百川智慧研究員
王炳寧,百川智慧預訓練負責人。博士畢業於中國科學院自動化研究所,主要研究問答系統和大語言模型。歷任搜狗、騰訊高階研究員,有著豐富大規模生成式模型經驗,主導併發布如ReCO、ComQA、ChiQA、T2Ranking等大規模中文問答資料,以及Baichuan系列預訓練模型。在ACL、SIGIR、AAAI等國際頂級人工智慧和自然語言處理會議上以第一作者發表論文11篇,並獲得2021年CIKM best paper runner up。博士論文《機器閱讀理解關鍵技術研究》獲2019年中國中文資訊學會優秀博士論文獎。中國中文資訊學會青年工作委員會委員。
6、大語言模型訓練的分散式計算技術
報告簡介:深度學習技術在多個領域取得了突破性進展,但隨著模型規模的不斷擴大,對硬體資源的需求也日益增加。潞晨科技創造的Colossal-AI深度學習系統,透過整合高效的多維並行系統,異構記憶體管理系統和推理加速系統,幫助解決大模型大規模訓練和推理中的效率和成本問題。Colossal-AI深度學習系統對主流開源模型如ViT, Stable Diffusion, Llama3等提供完善的支援和極致的加速。該系統已在自然語言處理、計算機視覺和生物資訊學等領域得到廣泛應用,並在ICML、NeurIPS等人工智慧領域的頂級學術會議上獲得了高度評價和廣泛認可。
尤洋,新加坡國立大學校長青年教授,潞晨科技創始人兼董事長
尤洋教授是清華大學碩士,加州伯克利大學博士,新加坡國立大學計算機系的校長青年教授。他曾創造ImageNet、BERT、AlphaFold、ViT訓練速度的世界紀錄,並被ScienceDaily、The Next Web、i-programmer等幾十家媒體廣泛報導,相關技術被廣泛應用於谷歌、微軟、英特爾、英偉達等科技巨頭。他近三年以第一作者身份在NIPS、ICLR、Supercomputing、IPDPS、ICS等國際重要會議或期刊上發表論文十餘篇,總計發表論文近百篇。他曾以第一作者獲國際並行與分散式處理大會(IPDPS)的最佳論文、國際並行處理大會(ICPP)的最佳論文,AAAI、ACL傑出論文等。他曾獲清華大學優秀畢業生,以及當時清華大學計算機係數額最高的西貝爾獎學金。他在2017年獲得美國計算機協會(ACM)官網上唯一頒給在讀博士生的ACM-IEEE CS George Michael Memorial HPC Fellowship。他獲得頒發給伯克利優秀畢業生的Lotfi A. Zadeh Prize。他被UC Berkeley提名為ACM Doctoral Dissertation Award候選人(81名UC Berkeley EECS 2020博士畢業生中選2人)。他曾任職於谷歌、微軟、英偉達、英特爾和IBM,在2021年被選入福布斯30歲以下精英榜 (亞洲)並獲得IEEE-CS超算傑出新人獎。
7、Large Language Models: Past, Present and Future
Thomas Scialom,Meta研究科學家,Llama2、3作者
Thomas Scialom,Meta研究科學家,Llama2、3作者。Thomas是索邦大學博士畢業,專攻自然語言生成。他是世界上一系列最著名的生成式人工智慧的幕後推手,包括 Llama 2、Llama3、BLOOM、Toolformer和Galactica,為通用人工智慧的發展做出了傑出貢獻。
8、圓桌討論
圓桌討論嘉賓:
宋睿華丨中國人民大學長聘副教授(主持人)
賀 笛丨北京大學助理教授
東昱曉丨清華大學副教授
張寧豫丨浙江大學副教授
曾國洋丨面壁智慧CTO
王炳寧丨百川智慧研究員
尤 洋丨新加坡國立大學校長青年教授,潞晨科技創始人兼董事長
即刻掃碼註冊,參與大會報名
本屆大會採用線下與線上模式融合,報名通道已開啟,歡迎掃碼免費註冊。由於線下席位有限,請儘早完成註冊,組委會將根據註冊次序稽核,並在會前傳送稽核結果通知。公開環節將向註冊使用者全程線上直播。