一次中8篇頂會論文的北大95後「AI蘿莉」,現在開源7大NLP模型
曾有一位北大碩士生,在校期間一次性在國際頂會ACL中標 8篇論文,其中 2篇一作,還登上了知乎熱搜。
在那次熱搜之後,這位“論文大戶”似乎逐漸銷聲匿跡。
今天,她帶著阿里達摩院深度語言模型體系 AliceMind回來了。
這位被外界稱為“ AI蘿莉”的羅福莉,就負責這次AliceMind中7個模型的開源。
她的經歷說起來有點“傳奇”。
上大學之前 沒怎麼接觸過電腦,卻誤打誤撞進了北師大計算機專業。
剛入學時因沒有基礎成績墊底,靠著努力躍升到 前一、二名。
大三時進入北大語言計算實驗室實習,選擇了NLP作為自己的科研方向,在 3個月內自學Python並投出一篇頂會論文(非一作)。
保研進入 北大,碩士兩年間在國際頂會上發表了超過20篇論文。
但她出人意料地沒有選擇繼續讀博,而是在2020年畢業之後就加入了阿里達摩院,想做點實在的研究。
進入工業界這兩年,她發的論文明顯減少了。
在讀書的時候,周圍的評價機制都是非常在意你的論文數量。但是到工業界,我現在已經不追求數量了,主要是追求做這個工作是不是真的有 落地價值 ,是不是在這個領域有一些 影響力 。
她在達摩院主導開發了跨語言預訓練模型VECO,成為AliceMind八大模型之一。這次AliceMind集體開源,她挑起了大梁。
簡單的才是最讚的
羅福莉在業界工作這一年,與在學術界時相比心態上有了很大的轉變:
在學校的時候總是追求提出一個很複雜的模型,大家看不懂,論文評審人也看不懂,但是到工業界的時候就會發現 一眼就能看懂 並且還有效的模型才是 最讚的 。
這也是她所在的達摩院深度語言模型團隊的思路,他們打造的AliceMind八大模型先後 登頂了GLUE、CLUE、XTREME、VQA Challenge、DocVQA、MS MARCO六大NLP權威榜單。
AliceMind中Alice的含義其實很簡單,就是 Alibaba’s Collection of Encoder-decoders。
其中的模型也像這個名字一樣樸實,都是從實際業務需要出發,在Encoder-decoder的基礎上進行創新和改進。
通用語言模型StructBERT,在BERT的基礎上增加了詞級別和句級別的兩個新目標函式,相當於讓AI掌握了“ 漢字序順不響影讀閱”這個能力。
這是因為團隊在阿里的業務中發現,使用者在電商、娛樂產品等輕鬆地使用場景時,經常出現語法、語序不正確等現象。
這就需要讓語言模型在面對語序錯亂、語法不規範的詞句時,仍能準確理解並給出正確的表達和回應。
AliceMind剛剛還再次登頂了多模態權威榜單 VQA Challenge 2021。
VQA Challenge的比賽任務類似看圖問答,給定一張影像和關於影像的自然語言問題,AI需要提供準確的自然語言答案。
對此,AliceMind的 多模態模型StructVBERT,在通用模型StructBERT的基礎上,同時引入文字和影像模態。
利用更高效的視覺特徵和創新的 交叉注意力機制,在統一的多模態語義空間進行聯合建模。
除了跨模態,羅福莉主導的 跨語言模型VECO也被頂會ACL2021錄用。
VECO中也引入了 交叉注意力機制,改變了以往跨語言資訊在隱藏層中自動建模的不穩定性,而是“顯式”地完成。
VECO的另一項創新是在預訓練的過程中,充分學習用於語言理解(NLU)和生成(NLG)任務,並讓二者互相學習提高彼此。
如今羅福莉再回顧VECO這個工作,也有一些感慨:
如果是兩年前還在學校的我,會覺得這好簡單,我可以加上很多的 花式技巧 。但是到了工業界要考慮到架構在不同業務場景下的通用性,只好 犧牲 一些複雜有趣的模型設計。
AliceMind中的 生成式語言模型PALM,則是將預訓練目標從重構輸入文字,改成了預測後續文字。
這樣一個改動就促使模型對輸入文字進行更深入地理解,在問答生成、文字複述、回覆生成、文字摘要等任務上都取得了更好的效果。
還有結構化語言模型 StructuralLM、機器閱讀理解模型 UED和知識驅動的語言模型 LatticeBERT,都在各自的領域取得了明顯地優勢。
除了此次開源的7個模型,AliceMind中還包括了 超大規模中文理解和生成統一模型PLUG。
AliceMind中的模型,看起來有一個共同特點,就是擅長” 跨界“。
從跨語言、跨模態到語言理解和生成的統一,都是基於Transformer架構將不同地輸入在一個更大的編碼空間上統一建模。
羅福莉補充道:
AliceMind的這種將Transformer作為統一模型架構的解決方案已經比較成熟,但要做到更好“跨界”,接下來努力的方向是解決不同型別或粒度輸入的深度融合和匹配問題。
從基礎模型擴充套件出能力多樣的模型,再把它們在實際業務中結合使用,讓AliceMind成了業界 能力最全面的深度語言模型體系。
那麼AliceMind都用到了哪些地方?
落地是個系統化的工程
AliceMind已經上線到阿里內部的NLP平臺,可以提供給不同部門的業務使用。
在官方網站上也提供了Demo,比如這個基於PLUG模型的語言生成模組。
輸入紅樓夢選段:
就能生成一段續寫:
而像這樣可供大家試玩的Demo還有幾十個。
不過這些官網上的服務並非都是由AliceMind提供技術支援,很多都只是這一體系啟發下的小模型。
那麼這次開源的幾大 核心目前都在哪裡打工呢?
應用最廣泛的,就是 電商。
尤其是阿里巴巴國際事業部(ICBU)或像速賣通(AliExpress)這樣擁有 跨境電商業務的部門,就是多語言模型 VECO的直接受益者。
VECO是AliceMind體系中的8大模型之一,用於多語言理解和跨語種的文字嵌入、分類,掌握了 100多種語言。
阿里內部基於AliceMind的翻譯平臺日呼叫量約 10億次,創造了 數億美元的國際跨境貿易和其他國際業務商業價值。
就像達摩院深度語言模型團隊負責人黃松芳所說“語言模型落地是個系統化的工程”:
語言模型從訓練、微調到蒸餾、壓縮,到整個部署上線都在平臺上面完成,上線之後跟業務方的系統連在一起,能夠直接嵌到他們的業務邏輯、業務系統裡面去。
我們更熟悉的淘寶拍照識圖、天貓精靈智慧音響中也有AliceMind的貢獻。
目前,AliceMind已經在阿里內部數十個核心業務落地,日均呼叫50億次,活躍場景超過 200個。
在阿里之外, 醫療領域尤其是癌症治療上,AliceMind同樣出力不少。
作為一個具有自主學習能力的深度學習語言模型體系,AliceMind應用在搜尋引擎上時會有一個 重排機制。
以具體某一類醫學文獻為目標,AliceMind在粗排先撈了一批相關文字後,還會再次結合文章型別、引用圖譜等資訊,進行不斷地 重排。
同時將抽取獲得的資訊與已知的結構化知識做融合,構建 知識體系,最終得到最高質量的臨床文獻。
在最近16支世界知名團隊參加的精準醫學國際評測中,憑藉這一精準醫學搜尋引擎,阿里團隊在兩項臨床證據質量評估上均取得 第一:
這樣高精度的 專業醫學搜尋引擎能夠在疾病治療時,為臨床醫生做提供高質量的 臨床決策輔助。
法律領域也有AliceMind的出沒。
浙江省高階人民法院就與達摩院合作,實現了從立案到裁判文書生成的 全流程智慧化審判系統。
而在這一試點單位中,AI對法官工作量的分擔使當庭宣判率提升至 90%,結案時間也從平均40天縮短到 50分鐘。
現在,基於AliceMind的AliNLP平臺日均累計呼叫量超過 數萬億次,每天有超過每天有超過 1000個業務方使用。
電商、教育、醫療、能源,通訊、法律、內容搜尋、城市大腦……越來越多的領域在AliceMind的加入下變得更加便利,更加智慧。
開源之後要做什麼?
現在,預訓練語言模型目前在NLP領域以及整個學習界都非常熱門,超大規模引數的模型已成為一種趨勢。
對此,達摩院深度語言模型團隊的負責人,也是AliceMind的總負責人 黃松芳表示:
我們這邊其實不會一味地追求大,而是非常強調它的落地。
一個語言模型從研究開發到投入實際應用,不是一家企業就能做到的。
還需要整個 社群的開發者都參與,才有可能將學術論文中的公式演算法用到大家的生活便利上。
達摩院希望透過開源,能降低業界研究和創新應用的門檻,使語言AI進入 大工業時代。
下一步,AliceMind打算與 語言學、 神經科學等跨學科的單位加強合作,將語言AI擴充套件到更大的應用中。
開源地址:
AliceMind官網:
相關論文:
通用預訓練模型StructBERT:
多語言預訓練模型VECO:
生成式預訓練模型PALM:
多模態預訓練模型E2E-VLP:
結構化預訓練模型StructuralLM:
閱讀理解模型:
融合知識的預訓練模型Lattice-BERT:
參考連結:
[1]
https://mp.weixin.qq.com/s/LTVVOOhezUN96MRLrqKCAQ
[2]
https://mp.weixin.qq.com/s/PW0wZbts6ZpbKZSHyp8aVw
— 完 —
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69946223/viewspace-2778295/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 那些沒出現在近幾年頂會上重要論文
- 全球AI頂會NeurlPS開始收高中生論文了AI
- 2013年至今各大AI頂會最佳論文整理分享AI
- 從2019 AI頂會最佳論文,看深度學習的理論基礎AI深度學習
- 你的論文能否中頂會?這篇分析同行評審結果的論文可幫助你
- 論文資源: CVPR、ICCV、ECCV、IJCAI等計算機視覺、影像處理頂會頂刊歷年論文連結AI計算機視覺
- 小紅書這場大模型論文分享會,集齊了四大國際頂會的作者大模型
- 騰訊AI Lab多篇論文入選CVPR、ACL及ICML等頂級會議(附論文下載)AI
- 北大獲中國首個WWW大會最佳論文獎,提出ELSA跨語言情感分析模型模型
- 微信團隊開源圍棋AI技術PhoenixGo,復現AlphaGo Zero論文AIGo
- AI 頂會灌水嚴重,論文疲於趕場,科學研究變味了?AI
- NLP相關論文綜述
- 哈佛NLP組論文解讀:基於隱變數的注意力模型 | 附開原始碼變數模型原始碼
- Tensorflow實現的深度NLP模型集錦(附資源)模型
- NLP論文解讀:無需模板且高效的語言微調模型(上)模型
- 查詢CV頂會ICCV,CVPR,ECCV論文方法以及sota實現程式碼
- 擴散模型 首篇綜述+論文分類彙總,谷歌&北大最新研究模型谷歌
- CodeGeeX論文發表:揭秘AI輔助程式設計工具背後的大模型AI程式設計大模型
- Llama成大模型頂流,祖克伯掀論戰:玩開源,時代變了大模型
- 深度學習“壟斷”!分析17萬篇AI頂會論文,他們首次揭示了計算資源貧富分化的證據深度學習AI
- 頂會中深度學習用於CTR預估的論文及程式碼集錦 (1)深度學習
- 頂會中深度學習用於CTR預估的論文及程式碼集錦 (3)深度學習
- 95 後美女激戰 AI,結果亮了……AI
- 不服SOLO:騰訊絕悟AI擊敗王者榮耀頂尖職業玩家,論文入選AAAI,未來將開源AI
- 馬斯克開源的 grok-1 底層 Transformer 模型論文 《Attention is All You Need》馬斯克ORM模型
- 清華NLP實驗室劉知遠:如何寫一篇合格的NLP論文
- NLP知識總結和論文整理
- 怒斥Sora之後,LeCun放出「視覺世界模型」論文,揭示AI學習物理世界的關鍵SoraLeCun視覺世界模型AI
- 11 個 AI 和機器學習模型的開源框架AI機器學習模型框架
- 一文讀懂目標檢測模型(附論文資源)模型
- 一文看盡2020上半年阿里、騰訊、百度入選AI頂會論文(附地址)阿里AI
- 首批開源超300個頂尖模型:這幾家中國「AI主力軍」,合力打造了一個AI模型社群「魔搭」模型AI
- Meta AI 開源萬物可分割 AI 模型(SAM)AI模型
- 用於訓練自然語言處理 (NLP) 和文字模型的 7 個頂級開源資料集 - KDnuggets自然語言處理模型
- 阿里雲機器學習PAI開源中文NLP演算法框架EasyNLP,助力NLP大模型落地阿里機器學習AI演算法框架大模型
- AI 論文網站AI網站
- 騰訊AI八篇論文入選頂級醫學影像會議MICCAI ,涉及病理癌症影像分類等AI
- 加盟依圖科技後,顏水成首篇頂會論文提出“多人體姿態檢測SPM”