大規模表格預訓練模型 SPACE-T

帶你聊技術發表於2023-04-18


來源:DataFunSummit

導讀 本文將介紹達摩院在大規模表格預訓練模型 SPACE-T 上的實踐。

分享內容主要包括五部分:

1. 表格問答的背景及技術趨勢

2. 大規模表格預訓練模型 SPACE-T

3. SPACE-T @ ModelScope

4. SPACE @ ModelScope

5. 總結和展望

分享嘉賓|黎檳華 阿里巴巴 演算法專家

編輯整理|張少華 信雅達科技

出品社群|DataFun


01

表格問答的背景及技術趨勢

TableQA 和 Text2SQL 等相關模型技術,近些年在學術界受到了很大的關注。為什麼要關注表格問答或者 Text2SQL 這樣的內容?其實這有一個相關的背景,在具體的落地業務裡面,企業在做智慧化過程中會面臨一個問題,對於企業裡面的相關知識文件以及資料,以各種形態進行存放,比如表格等,這樣逐步構成了企業資料庫和資料中臺,從而衍生出 OA 等企業資訊化系統。但是如何從這些大規模的資料中得到一些企業的決策資訊或者達到降本增效的功能,這時候需要做各種知識圖譜、對話相關的智慧系統,如:智慧對話、智慧 BI 分析。

各行業企業花費了大量資源搭建了企業的資料中臺,支撐了企業資訊化系統。但是仍需要花費大量精力重頭梳理相關業務知識(知識圖譜流程、問答、對話等),才能構建起企業智慧化系統。這樣就面臨一個挑戰:能否利用企業資料中臺直接構建智慧化系統?

對於企業來說,常見的一些文件表格、網頁表格以及關係型資料庫都是二維的表資訊。如果能夠直接利用這些資料進行智慧化系統構建,可以大幅度降低相關的成本。

大規模表格預訓練模型 SPACE-T

表格問答技術(TableQA)利用模型將自然語言轉換為 SQL 查詢語言,允許使用者使用自然語言與表格知識直接互動並返回直觀、流暢、忠實的結果。使用者透過語音或者文字進行提問,透過自然語言的理解最終形成相關的 SQL 語句,透過對話管理做狀態追蹤和策略最佳化,然後去查詢相關的知識庫及 API,根據得到的內容透過自然語言生成問題答案。上述的這個流程就是表格問答的核心鏈路。

大規模表格預訓練模型 SPACE-T

表格問答常見的應用示例就是智慧客服的對話,也是我們日常生活中會經常接觸到的一個案例。

大規模表格預訓練模型 SPACE-T

Text-to-SQL 的目的是將一個自然語言問題轉換為相應的可執行結構語句(SQL),也是近幾年一個熱度持續升高的技術,並且榜單的爭奪也非常激烈。技術發展也由最初的單表單輪發展到現在的表格預訓練模式。

大規模表格預訓練模型 SPACE-T

學術模型落地到實際應用場景會有一些鴻溝,下面羅列了部分示例來說明各個場景的資料特點以及他們要實現的業務訴求。

大規模表格預訓練模型 SPACE-T

概括來說,實現表格對話落地面臨的主要問題有四點:效果、成本、效率、語言。

大規模表格預訓練模型 SPACE-T

以上內容主要介紹了表格對話的一些相關技術背景以及落地技術難點等,接下來我們介紹大規模表格預訓練模型 SPACE-T,透過這個模型來解答上面落地的一些問題。

02

大規模表格預訓練模型 SPACE-T

要實現大規模表格預訓練模型,需要至少兩方面的要求,首先需要有大規模的資料,其次要有預訓練相關的技術才能支撐我們去得到大模型預訓練模型。之後,我們可以使用模型強大的泛化能力來解決模型效果問題,如魯棒問題、效果問題、領域遷移問題等,這樣才能在實際業務中落地應用。

大規模表格預訓練模型 SPACE-T

 首先對於資料,阿里雲對全行業進行了 17 個類別劃分,收集了億級表格。這為我們進行模型的預訓練提供了豐富的多行業資料,並且資料質量非常高,這樣訓練出來的表現效果相應也會很好。

大規模表格預訓練模型 SPACE-T

對於模型部分,有兩個挑戰,第一就是標註的資料成本高,第二是業務場景表格知識獨立。如果按照之前的訓練模型,那麼這個模型只能應用於某個領域。能否讓模型學會使用表格的知識,而非將表格的知識記憶在模型的引數裡,即將問題及表格的 Schema 相關的資料輸入到模型,將表格內容和問題做一些關聯,藉助表格內容理解問題在問什麼,這樣的結果是學會了一種如何使用表格資訊的能力,非單一訓練資料應對的能力。這樣可以透過豐富的問題和表格形態使得模型有了非常好的開箱即用能力。因而在面對一個新的業務時候,對於從未見過的表格資料,模型可以理解表格和資料之間的關係,得到具體的 SQL。

綜上來說,SPACE-T 透過 Linking Loss 和 Schema Loss 學會如何理解將表格內容和問題,如何將這兩者對映輸出 SQL。這樣在實際中就可以解決上述模型遇到的兩個問題。

大規模表格預訓練模型 SPACE-T

達摩院 TableQA 不光在預訓練模型上做了很多工作,同時對於下游模型做了很多探索,並達到了領先。

大規模表格預訓練模型 SPACE-T

SPACE-T 落地到阿里雲智慧客服後, 做了很多領域的應用,如金融、政務、零售等。

大規模表格預訓練模型 SPACE-T

阿里雲智慧客服的表格問答引擎大幅度降低了運營成本,透過將相關的表格資料轉換,再上傳繫結到通用模型上,一分鐘就可以構建問答,不需要標註訓練資料,一鍵訓練易上手。

大規模表格預訓練模型 SPACE-T

阿里雲智慧客服的表格問答引擎的能力範圍從型別和支援的問法都比較廣泛。

大規模表格預訓練模型 SPACE-T

前面主要講了 SPACE-T 模型本身的內容以及相關的落地能力。接下來主要講 SPACE 家族。

03

SPACE-T @ ModelScope

首先可以透過社群直接搜尋 SPACE-T 或者 SQL 找到預訓練模型。

大規模表格預訓練模型 SPACE-T

同時可以線上體驗 SPACE-T 的能力。線上體驗內建了多個領域表格樣例,使用者可以直接點選更換體驗,開發者也可以用程式碼載入自己的體驗。另外 SPACE-T 線上體驗內建了記憶體資料庫,使用者的問題轉換為 SQL,可以返回 SQL 執行結果,開發者也可以透過程式碼對接自己的資料庫。SPACE-T 輸出結構化的語句資訊,使用者可以根據需求轉換為可讀的 SQL、可執行 SQL 等。

大規模表格預訓練模型 SPACE-T

大規模表格預訓練模型 SPACE-T

下圖從體驗、開發到定製來闡述瞭如何使用 SPACE-T。體驗可以在社群站點直達模型,同時提供線上開發環境對 SPACE-T 等模型進行相關開發,最後模型開放了好多介面以滿足定製化要求。

大規模表格預訓練模型 SPACE-T

04

SPACE @ ModelScope

SPACE-T 是 SPACE 家族中的一員,SPACE-T 主要提供大規模表格預訓練模型,還有其他如對話、文件模型等,一起來賦能企業智慧化相關內容。

以下以對話模型為例進行介紹。提出利用半監督預訓練,充分結合有標和無標對話資料進行訓練。

有監督就是採用有監督的資料進行大規模訓練,實際情況中,有標註的資料量其實有限,更多的是採用無監督的方式,透過大規模的無監督資料去做訓練,中間過程也包含半監督,高質量的有監督資料和大量的無監督資料以及目標明確的訓練,透過 Transfer Learing 得到的結果就是目前的 SPACE 對話模型的核心過程。

大規模表格預訓練模型 SPACE-T

對話模型已經發展了一段時間。半監督預訓練,向預訓練對話模型中注入人類標註知識打造 SPACE 系列模型,並在 11 個不同國際對話資料集取得 SOTA。

大規模表格預訓練模型 SPACE-T

SPACE-3 已經登陸 Modelscope 社群。目前已經開放了 4 種模型包括:對話生成模型、對話意圖識別、預訓練對話模型、對話狀態追蹤等。

大規模表格預訓練模型 SPACE-T

在 SPACE 的 Readme 裡有了相關的程式碼,直接複製程式碼到環境中即可一鍵執行指令碼,並復現最新的 SOTA 效果。

大規模表格預訓練模型 SPACE-T

05

總結和展望

(1)表格是各行各業應用最普遍的結構化知識形態,利用表格作為知識直接構建智慧化系統,能大幅降低構建成本;

(2)SPACE-T 由億級表格資料預訓練構建,具備良好的開箱即用能力,在 ModelScope、阿里雲智慧客服等多個產品中輸出,支撐了多領域的客戶;

3)在 ModelScope 上能夠直接獲取 SPACE-T 中文/英文的模型,可以直接線上體驗,也可以透過 Notebook、 git clone 到本地等方式進行開發和定製,構建自己應用;

4)SPACE-T 是 SPACE 模型家族的⼀員, ModelScope 上也可以獲取到 SPACE 模型家族的多個對話模型,構建自己的對話應用;

5)SPACE-T 模型仍在繼續迭代中,後續會持續完善模型效果、增加模型能力,敬請期待!



來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70024922/viewspace-2946574/,如需轉載,請註明出處,否則將追究法律責任。

相關文章