星環科技孫元浩:語料已經是大模型最大的挑戰
机器之心發表於2024-06-16
「原來以為語料已經匱乏了,大模型訓練已經沒有語料了,實際上不是的,資料還遠遠沒有跑光」。作為大資料領域超過十年的創業者,「星環科技」創始人及CEO孫元浩並不認同「大模型已經將人類網際網路資料窮盡」的說法。根據他的觀察,如今在各行各業企業內部的資料還遠遠未被足夠利用,人類在網際網路上的存量資料遠遠大過目前大模型能夠利用的量級。擁有了這些來自各行各業內部高質量的資料,大模型可以在如今的基礎上,大大提高準確性。大模型時代,語料的開發遇到了新的挑戰。孫元浩分享稱,目前企業內部的資料往往多是非結構化的、海量的、不同形式的、以小檔案居多的,同時標註和校正這些專業資料還有較高的門檻。這對檔案系統、知識庫系統、語料開發系統等都提出了新的要求。比如,面對資料量巨大的問題,對企業內部各種文件、PPT的處理,意味著儲存和計算資源有更高的要求;在資料多樣性方面,對於企業內部不同型別的文件,如媒體文章、政府公文、設計文件等,都需要用訓練模型進行識別和解析,這就要求資料處理工具具備強大的多模態資料處理能力。對於資料安全和隱私問題,在訓練和推理的過程中,如何保證企業內部資訊的保密與安全性,這對工具的安全把控也提出了新要求;專業資料標註人才問題方面,由於企業內部資料的處理往往是專業領域的標註,比如生物分子式或者專業金融術語,需要更專業的資料標註專家進行處理。為了應對這些挑戰,孫元浩分享了星環科技的一些嘗試:1、升級大資料平臺:對 Transwarp Data Hub 資料平臺進行升級,使其能夠處理更多元化的資料,包括大量的文件和小檔案。透過重構源資料管理節點和增加 POSIX 介面,提高了檔案系統的支援能力和資料儲存效率。2、增加 Python 介面:在 Data hub 上增加 Python 介面,並將 Python 語言和庫進行分散式化,以便在處理語料時使用 Python 語言進行清洗。這有助於提高語料處理的效率和靈活性。3、推出分散式 Python 引擎:針對語料量通常為幾十 T、上百 T 的情況,推出分散式 Python 引擎,提高了處理海量語料的能力和效率。4、最佳化向量資料庫:對向量資料庫進行升級,提高召回準確度和分散式效能,使其能夠更好地支援大規模資料的處理和檢索。5、構建知識圖譜:提供Transwarp Knowledge Studio for LLM知識工具來構建知識圖譜,彌補向量召回的準確度不足。例如在裝置維修場景中,將裝置的故障數、歸零報告等匯入知識圖譜,大模型在回答問題時可以在知識圖譜上進行推理,從而提供更準確的答案。6、開發語料開發工具:推出語料開發工具,包括語料的解析、分類、清洗、標註、增強等功能,以及從語料中構造問答對和安全測試集。用於自動化或半自動化地處理各種文件型別、語音影片,將其轉化為可用於大模型訓練的高質量語料。7、提供大模型工具鏈:提供大模型整套工具鏈,包括從語料生成到模型訓練、知識庫構建、應用開發、智慧體構建的一系列過程,以及排程算力的工具。這有助於提高大模型應用的構建效率和管理能力。8、構建 AI 原生應用:推出無涯·問知和無涯·問數等 AI 原生應用,實現企業內部資訊檢索和資料分析,提高資料處理的效率和便捷性。9、支援多種模型和資料來源:支援第三方模型,無論是開源還是商用,以及多種資料來源,包括個人知識庫、企業知識庫、財經類資料庫、法律法規資料庫等,提高資料處理的靈活性和適應性。基於這些,企業可以直接上傳多種型別的資料,產品將快速解析,形成企業自己的知識庫。不過,將更多企業內部的資料開發釋放並不是終點,孫元浩認為,提升語料質量是目前大模型在提升準確性上最大的挑戰。「現在模型結構大家都不是秘密了,訓練方法也不是秘密了,只是沒有語料。語料存在於各種地方,因為工作非常巨大,都是巨大的體力活,這是目前最大的挑戰,不是之一,這是最大的挑戰。」除此之外,在大模型落地實踐中,孫元浩認為現階段提升模型準確率的方法主要包括以下幾種:1、構建外掛知識庫:將企業的資料、文章等解析出來放到知識庫中,讓大模型參考知識庫的內容進行寫作或分析,這是一種快速提升模型準確率的方法。2、微調模型:透過對大模型進行微調,使其能夠學習特定領域的知識和語言習慣,從而提高模型在該領域的準確率。3、持續訓練:對於金融等領域,需要持續地將大量的語料餵給大模型,以提高模型的精準度和回答金融問題的能力。4、提供語料開發工具:開發語料開發工具,幫助企業整理和清洗語料,將其轉化為適合大模型訓練的格式,從而提高模型的準確率。5、結合多種方法:可以將以上幾種方法結合起來使用,如構建外掛知識庫的同時,對模型進行微調或持續訓練,以進一步提高模型的準確率。孫元浩比喻道,過去一年一直講大模型是個“文科生”,因為它能寫作、生成;星環的目標是把大模型訓練成一個理科生,希望它能做數學分析,能夠懂自然科學的各個領域、各個學科。透過星環科技AI Infra工具,企業能夠準確、高效地將擁有的多種來源的多模語料轉換為高質量的專業領域知識,讓企業構築知識壁壘。