大規模表格預訓練模型 SPACE-T
來源:DataFunSummit
導讀 本文將介紹達摩院在大規模表格預訓練模型 SPACE-T 上的實踐。
分享內容主要包括五部分:
1. 表格問答的背景及技術趨勢
2. 大規模表格預訓練模型 SPACE-T
3. SPACE-T @ ModelScope
4. SPACE @ ModelScope
5. 總結和展望
分享嘉賓|黎檳華 阿里巴巴 演算法專家
編輯整理|張少華 信雅達科技
出品社群|DataFun
表格問答的背景及技術趨勢
TableQA 和 Text2SQL 等相關模型技術,近些年在學術界受到了很大的關注。為什麼要關注表格問答或者 Text2SQL 這樣的內容?其實這有一個相關的背景,在具體的落地業務裡面,企業在做智慧化過程中會面臨一個問題,對於企業裡面的相關知識文件以及資料,以各種形態進行存放,比如表格等,這樣逐步構成了企業資料庫和資料中臺,從而衍生出 OA 等企業資訊化系統。但是如何從這些大規模的資料中得到一些企業的決策資訊或者達到降本增效的功能,這時候需要做各種知識圖譜、對話相關的智慧系統,如:智慧對話、智慧 BI 分析。
各行業企業花費了大量資源搭建了企業的資料中臺,支撐了企業資訊化系統。但是仍需要花費大量精力重頭梳理相關業務知識(知識圖譜流程、問答、對話等),才能構建起企業智慧化系統。這樣就面臨一個挑戰:能否利用企業資料中臺直接構建智慧化系統?
對於企業來說,常見的一些文件表格、網頁表格以及關係型資料庫都是二維的表資訊。如果能夠直接利用這些資料進行智慧化系統構建,可以大幅度降低相關的成本。
表格問答技術(TableQA)利用模型將自然語言轉換為 SQL 查詢語言,允許使用者使用自然語言與表格知識直接互動並返回直觀、流暢、忠實的結果。使用者透過語音或者文字進行提問,透過自然語言的理解最終形成相關的 SQL 語句,透過對話管理做狀態追蹤和策略最佳化,然後去查詢相關的知識庫及 API,根據得到的內容透過自然語言生成問題答案。上述的這個流程就是表格問答的核心鏈路。
表格問答常見的應用示例就是智慧客服的對話,也是我們日常生活中會經常接觸到的一個案例。
Text-to-SQL 的目的是將一個自然語言問題轉換為相應的可執行結構語句(SQL),也是近幾年一個熱度持續升高的技術,並且榜單的爭奪也非常激烈。技術發展也由最初的單表單輪發展到現在的表格預訓練模式。
學術模型落地到實際應用場景會有一些鴻溝,下面羅列了部分示例來說明各個場景的資料特點以及他們要實現的業務訴求。
概括來說,實現表格對話落地面臨的主要問題有四點:效果、成本、效率、語言。
以上內容主要介紹了表格對話的一些相關技術背景以及落地技術難點等,接下來我們介紹大規模表格預訓練模型 SPACE-T,透過這個模型來解答上面落地的一些問題。
02
大規模表格預訓練模型 SPACE-T
要實現大規模表格預訓練模型,需要至少兩方面的要求,首先需要有大規模的資料,其次要有預訓練相關的技術才能支撐我們去得到大模型預訓練模型。之後,我們可以使用模型強大的泛化能力來解決模型效果問題,如魯棒問題、效果問題、領域遷移問題等,這樣才能在實際業務中落地應用。
首先對於資料,阿里雲對全行業進行了 17 個類別劃分,收集了億級表格。這為我們進行模型的預訓練提供了豐富的多行業資料,並且資料質量非常高,這樣訓練出來的表現效果相應也會很好。
對於模型部分,有兩個挑戰,第一就是標註的資料成本高,第二是業務場景表格知識獨立。如果按照之前的訓練模型,那麼這個模型只能應用於某個領域。能否讓模型學會使用表格的知識,而非將表格的知識記憶在模型的引數裡,即將問題及表格的 Schema 相關的資料輸入到模型,將表格內容和問題做一些關聯,藉助表格內容理解問題在問什麼,這樣的結果是學會了一種如何使用表格資訊的能力,非單一訓練資料應對的能力。這樣可以透過豐富的問題和表格形態使得模型有了非常好的開箱即用能力。因而在面對一個新的業務時候,對於從未見過的表格資料,模型可以理解表格和資料之間的關係,得到具體的 SQL。
綜上來說,SPACE-T 透過 Linking Loss 和 Schema Loss 學會如何理解將表格內容和問題,如何將這兩者對映輸出 SQL。這樣在實際中就可以解決上述模型遇到的兩個問題。
達摩院 TableQA 不光在預訓練模型上做了很多工作,同時對於下游模型做了很多探索,並達到了領先。
SPACE-T 落地到阿里雲智慧客服後, 做了很多領域的應用,如金融、政務、零售等。
阿里雲智慧客服的表格問答引擎大幅度降低了運營成本,透過將相關的表格資料轉換,再上傳繫結到通用模型上,一分鐘就可以構建問答,不需要標註訓練資料,一鍵訓練易上手。
阿里雲智慧客服的表格問答引擎的能力範圍從型別和支援的問法都比較廣泛。
前面主要講了 SPACE-T 模型本身的內容以及相關的落地能力。接下來主要講 SPACE 家族。
03
SPACE-T @ ModelScope
首先可以透過社群直接搜尋 SPACE-T 或者 SQL 找到預訓練模型。
同時可以線上體驗 SPACE-T 的能力。線上體驗內建了多個領域表格樣例,使用者可以直接點選更換體驗,開發者也可以用程式碼載入自己的體驗。另外 SPACE-T 線上體驗內建了記憶體資料庫,使用者的問題轉換為 SQL,可以返回 SQL 執行結果,開發者也可以透過程式碼對接自己的資料庫。SPACE-T 輸出結構化的語句資訊,使用者可以根據需求轉換為可讀的 SQL、可執行 SQL 等。
下圖從體驗、開發到定製來闡述瞭如何使用 SPACE-T。體驗可以在社群站點直達模型,同時提供線上開發環境對 SPACE-T 等模型進行相關開發,最後模型開放了好多介面以滿足定製化要求。
04
SPACE @ ModelScope
SPACE-T 是 SPACE 家族中的一員,SPACE-T 主要提供大規模表格預訓練模型,還有其他如對話、文件模型等,一起來賦能企業智慧化相關內容。
以下以對話模型為例進行介紹。提出利用半監督預訓練,充分結合有標和無標對話資料進行訓練。
有監督就是採用有監督的資料進行大規模訓練,實際情況中,有標註的資料量其實有限,更多的是採用無監督的方式,透過大規模的無監督資料去做訓練,中間過程也包含半監督,高質量的有監督資料和大量的無監督資料以及目標明確的訓練,透過 Transfer Learing 得到的結果就是目前的 SPACE 對話模型的核心過程。
對話模型已經發展了一段時間。半監督預訓練,向預訓練對話模型中注入人類標註知識打造 SPACE 系列模型,並在 11 個不同國際對話資料集取得 SOTA。
SPACE-3 已經登陸 Modelscope 社群。目前已經開放了 4 種模型包括:對話生成模型、對話意圖識別、預訓練對話模型、對話狀態追蹤等。
在 SPACE 的 Readme 裡有了相關的程式碼,直接複製程式碼到環境中即可一鍵執行指令碼,並復現最新的 SOTA 效果。
05
(1)表格是各行各業應用最普遍的結構化知識形態,利用表格作為知識直接構建智慧化系統,能大幅降低構建成本;
(2)SPACE-T 由億級表格資料預訓練構建,具備良好的開箱即用能力,在 ModelScope、阿里雲智慧客服等多個產品中輸出,支撐了多領域的客戶;
3)在 ModelScope 上能夠直接獲取 SPACE-T 中文/英文的模型,可以直接線上體驗,也可以透過 Notebook、 git clone 到本地等方式進行開發和定製,構建自己應用;
4)SPACE-T 是 SPACE 模型家族的⼀員, ModelScope 上也可以獲取到 SPACE 模型家族的多個對話模型,構建自己的對話應用;
5)SPACE-T 模型仍在繼續迭代中,後續會持續完善模型效果、增加模型能力,敬請期待!
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70024922/viewspace-2946574/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 阿里巴巴開源大規模稀疏模型訓練/預測引擎DeepRec阿里模型
- 新型大語言模型的預訓練與後訓練正規化,阿里Qwen模型阿里
- 新型大語言模型的預訓練與後訓練正規化,谷歌的Gemma 2語言模型模型谷歌Gemma
- 新型大語言模型的預訓練與後訓練正規化,Meta的Llama 3.1語言模型模型
- 大規模圖訓練調優指南
- 新型大語言模型的預訓練與後訓練正規化,蘋果的AFM基礎語言模型模型蘋果
- 讓預訓練語言模型讀懂數字:超對稱技術釋出 10 億引數 BigBang Transformer [乾元]金融大規模預訓練語言模型模型ORM
- QCon-OPPO大規模CV預訓模型技術及實踐模型
- PyTorch預訓練Bert模型PyTorch模型
- 預訓練模型 & Fine-tuning模型
- 【AI】Pytorch_預訓練模型AIPyTorch模型
- 【預訓練語言模型】 使用Transformers庫進行BERT預訓練模型ORM
- 監控大模型訓練大模型
- 自訓練 + 預訓練 = 更好的自然語言理解模型模型
- 百度PaddlePaddle的新特性與大規模稀疏資料分散式模型訓練分散式模型
- 【預訓練語言模型】使用Transformers庫進行GPT2預訓練模型ORMGPT
- 大模型如何提升訓練效率大模型
- MxNet預訓練模型到Pytorch模型的轉換模型PyTorch
- TorchVision 預訓練模型進行推斷模型
- 模型訓練:資料預處理和預載入模型
- Findings | 中文預訓練語言模型回顧模型
- 常見預訓練語言模型簡述模型
- DLRover:螞蟻開源大規模智慧分散式訓練系統分散式
- 知識增強的預訓練語言模型系列之ERNIE:如何為預訓練語言模型注入知識模型
- 通用模型、全新框架,WavLM語音預訓練模型全解模型框架
- 大模型訓練效率是推動大模型進化關鍵大模型
- TensorFlow 呼叫預訓練好的模型—— Python 實現模型Python
- keras中VGG19預訓練模型的使用Keras模型
- 預訓練語言模型:還能走多遠?模型
- NLP與深度學習(五)BERT預訓練模型深度學習模型
- 周明:預訓練模型在多語言、多模態任務的進展模型
- 飛槳圖學習大模型訓練框架大模型框架
- 百度基於 GPU 的超大規模離散模型訓練框架 PaddleBox 與 FeaBoxGPU模型框架
- 微信基於PyTorch的大規模推薦系統訓練實踐PyTorch
- NLP領域預訓練模型的現狀及分析模型
- 「NLP」GPT:第一個引入Transformer的預訓練模型GPTORM模型
- COLING 2020 | CharBERT:字元敏感的預訓練語言模型字元模型
- 180G!中文ELECTRA預訓練模型再升級模型