星環科技孫元浩：語料已經是大模型最大的挑戰

「原來以為語料已經匱乏了，大模型訓練已經沒有語料了，實際上不是的，資料還遠遠沒有跑光」。

作為大資料領域超過十年的創業者，「星環科技」創始人及CEO孫元浩並不認同「大模型已經將人類網際網路資料窮盡」的說法。

根據他的觀察，如今在各行各業企業內部的資料還遠遠未被足夠利用，人類在網際網路上的存量資料遠遠大過目前大模型能夠利用的量級。擁有了這些來自各行各業內部高質量的資料，大模型可以在如今的基礎上，大大提高準確性。

而關鍵問題就在於，怎樣可以高效地開發這些資料？

大模型時代，語料的開發遇到了新的挑戰。孫元浩分享稱，目前企業內部的資料往往多是非結構化的、海量的、不同形式的、以小檔案居多的，同時標註和校正這些專業資料還有較高的門檻。這對檔案系統、知識庫系統、語料開發系統等都提出了新的要求。

比如，面對資料量巨大的問題，對企業內部各種文件、PPT的處理，意味著儲存和計算資源有更高的要求；在資料多樣性方面，對於企業內部不同型別的文件，如媒體文章、政府公文、設計文件等，都需要用訓練模型進行識別和解析，這就要求資料處理工具具備強大的多模態資料處理能力。

對於資料安全和隱私問題，在訓練和推理的過程中，如何保證企業內部資訊的保密與安全性，這對工具的安全把控也提出了新要求；專業資料標註人才問題方面，由於企業內部資料的處理往往是專業領域的標註，比如生物分子式或者專業金融術語，需要更專業的資料標註專家進行處理。

為了應對這些挑戰，孫元浩分享了星環科技的一些嘗試：

1、升級大資料平臺：對 Transwarp Data Hub 資料平臺進行升級，使其能夠處理更多元化的資料，包括大量的文件和小檔案。透過重構源資料管理節點和增加 POSIX 介面，提高了檔案系統的支援能力和資料儲存效率。

2、增加 Python 介面：在 Data hub 上增加 Python 介面，並將 Python 語言和庫進行分散式化，以便在處理語料時使用 Python 語言進行清洗。這有助於提高語料處理的效率和靈活性。

3、推出分散式 Python 引擎：針對語料量通常為幾十 T、上百 T 的情況，推出分散式 Python 引擎，提高了處理海量語料的能力和效率。

4、最佳化向量資料庫：對向量資料庫進行升級，提高召回準確度和分散式效能，使其能夠更好地支援大規模資料的處理和檢索。

5、構建知識圖譜：提供Transwarp Knowledge Studio for LLM知識工具來構建知識圖譜，彌補向量召回的準確度不足。例如在裝置維修場景中，將裝置的故障數、歸零報告等匯入知識圖譜，大模型在回答問題時可以在知識圖譜上進行推理，從而提供更準確的答案。

6、開發語料開發工具：推出語料開發工具，包括語料的解析、分類、清洗、標註、增強等功能，以及從語料中構造問答對和安全測試集。用於自動化或半自動化地處理各種文件型別、語音影片，將其轉化為可用於大模型訓練的高質量語料。

7、提供大模型工具鏈：提供大模型整套工具鏈，包括從語料生成到模型訓練、知識庫構建、應用開發、智慧體構建的一系列過程，以及排程算力的工具。這有助於提高大模型應用的構建效率和管理能力。

8、構建 AI 原生應用：推出無涯·問知和無涯·問數等 AI 原生應用，實現企業內部資訊檢索和資料分析，提高資料處理的效率和便捷性。

9、支援多種模型和資料來源：支援第三方模型，無論是開源還是商用，以及多種資料來源，包括個人知識庫、企業知識庫、財經類資料庫、法律法規資料庫等，提高資料處理的靈活性和適應性。

基於這些，企業可以直接上傳多種型別的資料，產品將快速解析，形成企業自己的知識庫。不過，將更多企業內部的資料開發釋放並不是終點，孫元浩認為，提升語料質量是目前大模型在提升準確性上最大的挑戰。

「現在模型結構大家都不是秘密了，訓練方法也不是秘密了，只是沒有語料。語料存在於各種地方，因為工作非常巨大，都是巨大的體力活，這是目前最大的挑戰，不是之一，這是最大的挑戰。」

除此之外，在大模型落地實踐中，孫元浩認為現階段提升模型準確率的方法主要包括以下幾種：

1、構建外掛知識庫：將企業的資料、文章等解析出來放到知識庫中，讓大模型參考知識庫的內容進行寫作或分析，這是一種快速提升模型準確率的方法。

2、微調模型：透過對大模型進行微調，使其能夠學習特定領域的知識和語言習慣，從而提高模型在該領域的準確率。

3、持續訓練：對於金融等領域，需要持續地將大量的語料餵給大模型，以提高模型的精準度和回答金融問題的能力。

4、提供語料開發工具：開發語料開發工具，幫助企業整理和清洗語料，將其轉化為適合大模型訓練的格式，從而提高模型的準確率。

5、結合多種方法：可以將以上幾種方法結合起來使用，如構建外掛知識庫的同時，對模型進行微調或持續訓練，以進一步提高模型的準確率。

孫元浩比喻道，過去一年一直講大模型是個“文科生”，因為它能寫作、生成；星環的目標是把大模型訓練成一個理科生，希望它能做數學分析，能夠懂自然科學的各個領域、各個學科。透過星環科技AI Infra工具，企業能夠準確、高效地將擁有的多種來源的多模語料轉換為高質量的專業領域知識，讓企業構築知識壁壘。

相關文章