天雲資料釋出私域資料大模型Elpis 將大模型能力應用於產業原生動力即工程領域

伺服器頻道發表於2023-04-21

今年初,AI大模型開啟諸神之戰,行業都在蹭熱點發布AI大模型,媒體也跟進談大模型。ChatGPT的火爆如同七年前的AlphaGo一樣,AlphaGo並不意味著AI就只能下圍棋,ChatGPT也不意味著AI只能聊天,它們的真實目標都是工程領域。近日,在上海資產管理協會秘書處、上海資產管理協會金融科技專業委員會聯合主辦的“上海資產管理協會首次會員專業技術沙龍”上, 智慧投研技術聯盟(ITL)高階技術顧問、天雲融創資料科技(北京)有限公司CEO雷濤在會上演示釋出私域資料大模型Elpis,該模型具備專業領域知識,能準確回答問題。

天雲資料私域大模型Elpis透過具備向量能力的資料庫Hubble支撐了證監會全部法規(不含更新資料),並做遷移學習。

(天雲資料-私域大模型(Elpis)窄場景閉環流程圖)

一方面透過AI-PaaS平臺採集相關資料,進行資料標註及資料處理;繼而對LLM微調,使模型更適用於當前場景;最後透過模型管理進行服務釋出,供使用者使用。另一方面處理私域資料相關知識文件,將文件向量化,儲存在hubble-vector模組中,用於LLM的知識增強及答案溯源。在生成時可以引用原有法條做準確嚴謹回答,對比通用大模型,更適合機構私有資料。

(以上為天雲資料-私域大模型Elpis與ChatGPT的回答對比圖)

其實,兩年前OpenAI就釋出了大模型,但釋出應用以後並沒有引起北美市場的關注。北美產業市場的反應和中國市場的反應有著天壤之別。國內熱談的ChatGPT,在北美產業內聲音很平淡。但另一個值得關注的點是,北美矽谷的資本迅速開始熱追向量資料庫。我們來談一談其中的關鍵資訊:

馬斯克指責OpenAI不Open:OpenAI開放了ChatGDP應用,OpenAI沒有開放的是什麼?

OpenAI的創始人馬斯克在Twitter上接連指責OpenAI違背了創立時的初心:“OpenAI最初是作為一家開源的非營利性公司而建立的,為了抗衡谷歌,這也是我把它命名為OpenAI的原因。但現在它已經成為一家閉源的營利性公司,由微軟有效控制,這完全違背了我的本意。”

作為一個由OpenAI開發的AI模型, OpenAI提供了API,以讓開發者在他們的應用程式中使用ChatGPT的能力,但是原始碼並沒有公開發布,就是基於私域資料遷移學習,基於人類反饋的強化學習。

OpenAI不Open。

關於ChatGDP北美與中國的關注差異:國內大談大模型VS矽谷資本熱追向量資料庫

技術,應該拋棄表象看本質,才能解決根本。試問一下,ChatGPT的工程架構是如何搭建的,工程的核心在哪裡?為什麼在國內熱追大模型時,北美資本熱追的是向量資料庫?

目前大模型主要基於的語料資料主要是非結構化資料,各種型別的文件、圖片、音影片等訓練出來多模態模型,對於訓練模型本身,這些非結構化資料就需要預處理轉化為向量資料。在應用端與ChatGPT 進行互動的時候,可以輸入文字、圖片等資訊,首先需要處理的是輸入進行向量化,然後進入模型,在底層還有海量歷史海量資料進行向量計算,還涉及相似問題查詢,相似問題最優答案推薦。諸如以上的向量化資料的儲存,需要一個分散式向量資料庫進行支撐,這是非結構化資料大模型場景工程化落地必然路徑。

也就是ChatGPT只是我們看到的應用表象結果, 向量資料庫是北美市場看到的核心技術。

科技進步不能把能力構建在一個線上應用上,而要把能力應用在產業的原生動力上。僅僅做一個客服機器人,海闊天空泛泛而談,不談專業領域的知識,不能真正的推動行業進步。

主流的資料庫必然要面向AI:向量資料庫將在AI中發揮關鍵作用,那麼AI原生資料庫應該是什麼樣?

向量資料庫在幫助大語言模型的應用方面發揮了重要作用,對AI有非常好的支撐。深度學習被認為是最有效的非結構資料處理方式之一,非結構資料經過深度學習模型的處理會被向量化,所以海量非結構資料的分析處理被轉化為對海量向量的近似搜尋。

大模型浪潮洶湧而至,向量資料庫註定要掀起一波巨浪。但向量資料庫廠商Zilliz在自己的官方賬號中對向量資料庫的2023做了8 個預測,第3點便是: 向量資料庫與傳統資料庫的進一步融合。

我們知道資料庫的發展從關係型資料庫到NoSQL再到NewSQL,所追求的是資料庫操作的便捷性。但向量資料庫並不支援SQL操作,這是他在使用上的一個門檻。 以後主流的資料庫必然要面向AI,面對資料的儲存、計算、排程和解析四個層級,因此一定是AI原生資料庫。

那麼AI原生的資料庫應該長什麼樣,應該面向什麼樣的需求提供服務?在SQL邏輯之上,怎麼能夠提供更為豐富的企業級資料服務?網際網路帶來了產銷合一,越來越多的資料並不是面向宏觀趨勢的供給,做報表、管理駕駛艙、儀表盤,供給領導決策分析。個性化服務,淘寶推薦引擎、千人千面個性化結果,要跑的是貝業斯網路、是協同過濾演算法,是這些演算法在替代SQL的視覺化服務。

所以怎麼能夠在同一個計算的庫體上,面向機器學習的操作面向新興的資料驅動業務的演算法?AI內生資料庫是一個必然要走的路徑。尤其是應對產業網際網路,第三波的機器資料生產,更多的物聯網的機器生產、感測器,他的機器資料物理意義人理解越來越難,比如油壓、溫度、結蠟、工況都是一些科學屬性。這些資料它很難用決策,因為它對人類來說需要更強的科學知識才能去理解。

AI原生資料庫透過更多的邏輯計劃豐富資料消費能力和形態,是面向服務的融合,透過將資料庫智慧化在AI計算的過程中降低門檻和成本,同時也可以充分地釋放資料庫的計算資源,進一步突破行業天花板,形成更大產業規模。

來自 “ 天雲資料 ”, 原文作者:天雲資料;原文連結:天雲資料,如有侵權,請聯絡管理員刪除。

相關文章