本文來自微信公眾號“與資料同行”，作者：傅一平

今年以來，自己一直在做大模型應用方面的思考，在“智典”應用落地之際，今天就來跟大家分享一下我們在資料目錄後設資料自動生成方面的探索和實踐。

高質量的資料目錄是企業高效開發利用資料的基礎。經過多年構建的資料治理體系，我們的企業級資料目錄已經建立起來。該目錄自底向上包含三個層次：資料資源目錄、資料資產目錄和資料開放目錄，各層都對應於資料處理生命週期的不同階段，納管的資料資源已經超過2萬項。

為了確保資料目錄的完整性，設計了40+的標準屬性：

圍繞企業資料目錄，建立起了一套資料目錄的閉環管理流程，當前盤點資料的週期已經實現按天自動動態更新，月變更資料超過1000項：

應該來講，我們已經實現了企業資料目錄的從0到1，但隨著運營的逐步深入，當前面臨著三個方面的挑戰：

首先，企業級資料目錄覆蓋了B/O/M/S四大領域，可是各個領域的資料管理水平參差不齊，源端提供的資料目錄的後設資料資訊缺失嚴重，而且質量不高，資料目錄的完整率僅為10%，欄位級的後設資料資訊準確率不到70%，業務人員看不懂的現象普遍存在，運維人員的諮詢服務量大幅增加，制約著企業資料目錄價值的發揮。

其次，要維護好企業級資料目錄的後設資料，需要掌握大量跨領域的專業知識，但我們資料運營團隊當前並不具備這個條件。儘管依託於企業級資料治理組織、機制和流程，與其他領域建立了良好的合作關係，但溝通成本還是很高的。特別是當很多知識還掌握在第三方合作伙伴手中時，這個問題更加凸顯。

最後，我們採取了多種措施來完善資料目錄，包括組織各領域的專家來補充資訊，還嘗試用眾包的方式來吸收公眾的智慧。但是，這些方法很依賴於專家們的時間和投入，因此成本非常高。我們估計，要完善數萬條資料目錄資訊，需要數萬人天的工作量，並且需要持續的努力。這種方法不僅現實性不高，而且人工維護的資料質量也很難得到保證。

從我的經驗看，維護後設資料有三種模式：

第一種，後向維護，即等到資料資源開發完成後再補充後設資料資訊。這種方法不會太乾擾正常的生產流程，但代價很大，因為它需要在工作完成後回過頭來補充資訊，這既費力又難以長期堅持。

第二種，前向錄入，即在資料資源開發過程中就開始錄入後設資料資訊。雖然這種方法能從一開始就保證後設資料的存在，但它可能會嚴重拖慢業務流程，因為它要求開發人員在忙於上線產品的同時，還得分心去處理後設資料。這幾乎沒有成功案例，而且即便可行，後設資料的質量也很難得到保證。

第三種，自動生成，即嘗試自動生成後設資料，比如透過程式碼解析等技術。這聽起來很理想，但實際上要求很高，而且很難做到準確和全面，大多數嘗試都以失敗告終。

我的經驗告訴我，維護後設資料這種對業務價值間接的工作，必須要考慮價效比。大模型出來後，大家立即想到了基於大模型的能力來完善資料目錄的後設資料資訊的低成本的解決方案，其優勢體現在三個方面：

1、打破領域知識壁壘

儘管我們對業務資料有很好的瞭解，但我們對網路資料(比如接入網、傳輸網、核心網)的瞭解就不夠全面。幸運的是，大型語言模型擅長處理這種全球通用的知識，這可以幫助我們填補知識上的空白。這是“智典”成功的關鍵。

2、用通俗的語言詮釋

哪怕我們對業務資料再熟悉，如果團隊成員無法用簡單明瞭的語言來描述資料，那麼後設資料就可能會變得模糊不清。大型語言模型能夠使用簡單、精確並且容易理解的方式來表達專業知識。只需給它足夠的上下文資訊，它就能生成清晰的摘要。

3、資料目錄的自動化

前期我們在資料目錄的運營上花費了大量的精力，每次掃描到新的資料資源，不僅要進行後設資料資訊的補錄，還需要業務人員的和管理人員的稽核，整個確認流程非常長，人工的大量介入讓資料一鍵入湖的目標遲遲無法實現。

我的目標是讓資料自動入湖，不需要人工干預，並且保證資料目錄的質量。如果我們能開發出一個基於大模型的後設資料生成API，並將其整合到流程中，我們就能實現這個目標。

下面就談談具體的做法。

1、選模型

基礎大模型的能力決定了“智典”的成敗，我們的大模型需要私有化部署，又不可能自己去研發基礎大模型，因此前期只能選擇開源的方案。而每種開源的基礎大模型的能力也是不同的，必須基於特定場景自己去做測試，比如LLAMA2-13B雖然推理能力還可以，但中文能力太差。

因此，我們制定了一個針對資料目錄後設資料生成的基礎大模型的測試方法，從中文理解能力、領域知識理解能力、邏輯推理能力等五個維度出發，對模型的輸出結果進行專家打分，選出最佳模型。最終選擇了表現最為出色的通義千問模型作為基底大模型，下面是測試結果的示意：

2、備指令

由於企業資料目錄涉及公司大量的領域知識，同時對格式等輸出也有特定要求，因此我們還是需要在通義千問的基礎上進行一定的微調，這就需要建立訓練的指令集。我們梳理了存量的資料目錄後設資料資訊、設計了提示詞模板，構建了一個擁有6000餘條規範化問答結構的指令資料集，如下所示：

3、做訓練

基於通義千問大模型，同時使用LORA演算法對指令資料集進行大模型微調訓練，我們構建出了一個自動生成資料目錄後設資料資訊的領域大模型。該過程的核心是透過凍結基底大模型的權重引數，在基底模型中追加並訓練額外的神經網路，以達到注入領域知識和訓練模型服從人工指令的目的。

為驗證“智典”生成的字典資訊準確性，我們隨機選擇各領域的430張表，並邀請業務專家進行人工稽核。經驗證，其準確率高達97%，在這個場景，大模型生成的內容質量可以達標。

以網路側某無線資源表為例，該表的中文名稱、欄位的中文名稱以及業務含義等資料字典資訊，均由“智典”自動生成。相較於原始的字典資訊，透過“智典”生成的內容語義更加準確，表達更加流暢，也更容易被使用人員理解，如下所示：

4、做推理

最後就是具體的部署了，我們採取CVL模式快速構建了資料目錄後設資料資訊的自動生成服務。該服務透過資料處理、資訊檢索以及呼叫大模型推理等流程，能夠智慧、準確地生成後設資料資訊，將後設資料資訊補全的平均耗時由天縮短至秒級，資訊準確率達到95%以上，下圖示例了整個推理過程：

5、嵌流程

我們將推理能力封裝成了一個API，替換了前面資料目錄的閉環管理流程的後設資料人工錄入環節。我們保留了人工快速稽核的環節，因為大模型生成會產生一定的錯誤，比如無法基於拼音進行準確的推理，稽核人員需要保留這些錯誤的資訊，作為下次調優的依據。

有了大模型的加持，企業資料目錄的可用性得到了很大的提升，體現在三個方面：

第一，資料目錄後設資料資訊的質量上了一個檔次，專業人員的評估是：大模型生成的後設資料質量不低於手工維護的水平。

第二、我們也降本增效了，裁撤了ETL團隊，大家能把精力更多的投入到業務賦能中去。

第三，響應能力提升了，資料資源納管的週期已經縮短至小時級。

“智典”是我們在資料領域做成的第一個比較成功的大模型應用，但仍然面臨著諸多挑戰：

第一，“智典”的生成只是第一步，“智典”的運營才是關鍵，我們需要將“智典”推送到需要它的地方，包括需求分析、資料開發及資料開放的場景，不能自嗨。

第二、“智典”在做推理的時候，輸入的上下文資訊並不完備，比如基本上是根據原始表名，欄位名來做推理，這限制了內容的生成能力，實際上更多的上下文資訊是藏在資料中的，而要生成這些上下文資訊挑戰巨大。

第三、“智典”只是對實體資訊進行了業務描述，缺乏相互關係和血緣的描述，使用的場景還是非常受限的。可以這麼說，這還是一個缺乏深度和內涵的資料目錄，後續會考慮基於大模型去解析程式碼來生成更多的後設資料。

第四、“智典”的目錄分類是以系統為基礎，大家透過“智典”看到的是流程割裂的業務資料，對業務人員並不友好，而要改善這一點，就涉及到業務物件管理等更為挑戰性的工作。

李彥宏說，大模型值得企業把所有的應用都重構一遍，我對這個方向深信不疑。但也知道現在企業要做成一個成功的大模型應用不易，因為其對場景和技術的要求極度苛刻，特別是當前國內基礎大模型的能力還不夠，只能在一些對準確性要求不高的場景進行嘗試，十分之一的成功率估計也沒有吧。

但我們還是要努力去做出嘗試，也期待國內基礎大模型的進步。

如何打造一個大模型生成的資料目錄？

相關文章