天雲資料釋出私域資料大模型Elpis 將大模型能力應用於產業原生動力即工程領域
今年初,AI大模型開啟諸神之戰,行業都在蹭熱點發布AI大模型,媒體也跟進談大模型。ChatGPT的火爆如同七年前的AlphaGo一樣,AlphaGo並不意味著AI就只能下圍棋,ChatGPT也不意味著AI只能聊天,它們的真實目標都是工程領域。近日,在上海資產管理協會秘書處、上海資產管理協會金融科技專業委員會聯合主辦的“上海資產管理協會首次會員專業技術沙龍”上, 智慧投研技術聯盟(ITL)高階技術顧問、天雲融創資料科技(北京)有限公司CEO雷濤在會上演示釋出私域資料大模型Elpis,該模型具備專業領域知識,能準確回答問題。
天雲資料私域大模型Elpis透過具備向量能力的資料庫Hubble支撐了證監會全部法規(不含更新資料),並做遷移學習。
(天雲資料-私域大模型(Elpis)窄場景閉環流程圖)
透過AI-PaaS平臺採集相關資料,進行資料標註及資料處理,基於遷移學習對大語言模型進行微調,同時利用Hubble-vector的向量儲存及查詢能力,使模型語境更適用於當前私域資料場景,並且做到答案可精確溯源,最後透過模型管理進行服務的釋出供使用者使用。在生成時可以引用原有法條做準確嚴謹回答,對比通用大模型,更適合機構私有資料。
(以上為天雲資料-私域大模型Elpis與ChatGPT的回答對比圖)
其實,兩年前OpenAI就釋出了大模型,但釋出應用以後並沒有引起北美市場的關注。北美產業市場的反應和中國市場的反應有著天壤之別。國內熱談的ChatGPT,在北美產業內聲音很平淡。但另一個值得關注的點是,北美矽谷的資本迅速開始熱追向量資料庫。我們來談一談其中的關鍵資訊:
馬斯克指責OpenAI不Open:OpenAI開放了ChatGDP應用,OpenAI沒有開放的是什麼?
OpenAI的創始人馬斯克在Twitter上接連指責OpenAI違背了創立時的初心:“OpenAI最初是作為一家開源的非營利性公司而建立的,為了抗衡谷歌,這也是我把它命名為OpenAI的原因。但現在它已經成為一家閉源的營利性公司,由微軟有效控制,這完全違背了我的本意。”
作為一個由OpenAI開發的AI模型, OpenAI提供了API,以讓開發者在他們的應用程式中使用ChatGPT的能力,但是原始碼並沒有公開發布,就是基於私域資料遷移學習,基於人類反饋的強化學習。
OpenAI不Open。
關於ChatGDP北美與中國的關注差異:國內大談大模型VS矽谷資本熱追向量資料庫
技術,應該拋棄表象看本質,才能解決根本。試問一下,ChatGPT的工程架構是如何搭建的,工程的核心在哪裡?為什麼在國內熱追大模型時,北美資本熱追的是向量資料庫?
目前大模型主要基於的語料資料主要是非結構化資料,各種型別的文件、圖片、音影片等訓練出來多模態模型,對於訓練模型本身,這些非結構化資料就需要預處理轉化為向量資料。在應用端與ChatGPT 進行互動的時候,可以輸入文字、圖片等資訊,首先需要處理的是輸入進行向量化,然後進入模型,在底層還有海量歷史海量資料進行向量計算,還涉及相似問題查詢,相似問題最優答案推薦。諸如以上的向量化資料的儲存,需要一個分散式向量資料庫進行支撐,這是非結構化資料大模型場景工程化落地必然路徑。
也就是ChatGPT只是我們看到的應用表象結果, 向量資料庫是北美市場看到的核心技術。
科技進步不能把能力構建在一個線上應用上,而要把能力應用在產業的原生動力上。僅僅做一個客服機器人,海闊天空泛泛而談,不談專業領域的知識,不能真正的推動行業進步。
主流的資料庫必然要面向AI:向量資料庫將在AI中發揮關鍵作用,那麼AI原生資料庫應該是什麼樣?
向量資料庫在幫助大語言模型的應用方面發揮了重要作用,對AI有非常好的支撐。深度學習被認為是最有效的非結構資料處理方式之一,非結構資料經過深度學習模型的處理會被向量化,所以海量非結構資料的分析處理被轉化為對海量向量的近似搜尋。
大模型浪潮洶湧而至,向量資料庫註定要掀起一波巨浪。但向量資料庫廠商Zilliz在自己的官方賬號中對向量資料庫的2023做了8 個預測,第3點便是: 向量資料庫與傳統資料庫的進一步融合。
我們知道資料庫的發展從關係型資料庫到NoSQL再到NewSQL,所追求的是資料庫操作的便捷性。但向量資料庫並不支援SQL操作,這是他在使用上的一個門檻。 以後主流的資料庫必然要面向AI,面對資料的儲存、計算、排程和解析四個層級,因此一定是AI原生資料庫。
那麼AI原生的資料庫應該長什麼樣,應該面向什麼樣的需求提供服務?在SQL邏輯之上,怎麼能夠提供更為豐富的企業級資料服務?網際網路帶來了產銷合一,越來越多的資料並不是面向宏觀趨勢的供給,做報表、管理駕駛艙、儀表盤,供給領導決策分析。個性化服務,淘寶推薦引擎、千人千面個性化結果,要跑的是貝業斯網路、是協同過濾演算法,是這些演算法在替代SQL的視覺化服務。
所以怎麼能夠在同一個計算的庫體上,面向機器學習的操作面向新興的資料驅動業務的演算法?AI內生資料庫是一個必然要走的路徑。尤其是應對產業網際網路,第三波的機器資料生產,更多的物聯網的機器生產、感測器,他的機器資料物理意義人理解越來越難,比如油壓、溫度、結蠟、工況都是一些科學屬性。這些資料它很難用決策,因為它對人類來說需要更強的科學知識才能去理解。
AI原生資料庫透過更多的邏輯計劃豐富資料消費能力和形態,是面向服務的融合,透過將資料庫智慧化在AI計算的過程中降低門檻和成本,同時也可以充分地釋放資料庫的計算資源,進一步突破行業天花板,形成更大產業規模。
來自 “ 天雲資料 ”, 原文作者:天雲資料;原文連結:天雲資料,如有侵權,請聯絡管理員刪除。
相關文章
- 大資料分析應用的九大領域大資料
- 大資料在教育領域如何應用?大資料
- ClickHouse在大資料領域應用實踐大資料
- Vineyard 加入 CNCF Sandbox,將繼續瞄準雲原生大資料分析領域大資料
- 關於法律大資料研究與應用領域的六大展望大資料
- 聚焦智慧家庭領域 奧維雲網釋出三大系列大資料產品大資料
- 未來大資料的主要應用領域包括哪些大資料
- 大資料應用:這5個領域必不可少!大資料
- 大資料於產業金融領域的運用究竟如何很好的實現大資料產業
- 大壓力 小資料IO模型模型
- 大資料分析應用最多的9個關鍵領域大資料
- 領域驅動模型DDD(二)——領域事件的訂閱/釋出實踐模型事件
- 大資料文摘:細數機器學習在金融領域的七大應用大資料機器學習
- 大資料領域三個大的技術方向大資料
- 大資料的資料模型大資料模型
- 數字孿生五維模型及十大領域應用模型
- 大模型在程式碼缺陷檢測領域的應用實踐大模型
- 雲資料庫在水利領域的應用與探索資料庫
- 將大模型能力融入 7 大產品,百度智慧雲交出「企業大模型應用成績單」大模型
- 運用領域模型——DDD模型
- 盤點大資料分析領域五大趨勢大資料
- 天雲大資料獲1億增資,釋出HTAP資料庫Hubble大資料資料庫
- 資料庫領域3月大事件資料庫事件
- 螞蟻集團WAIC釋出大模型密算平臺,助力大模型破解資料供給挑戰AI大模型
- 報名即將結束!11 大雲原生領域開源技術乾貨一場拿下
- 【金猿人物展】白鯨開源CEO郭煒:未來資料領域的PK是大模型Transformer vs 大資料Transform大模型ORM大資料
- RPA應用於人資領域的4大典型場景
- 定位產業AIGC化加速器 “雲闕AI”大模型垂直應用正式釋出產業AIGC大模型
- 開源醫療大模型排行榜: 健康領域大模型基準測試大模型
- 社交資料在徵信領域的應用探索
- 3NF淺談BI領域的資料模型設計模型
- 大資料怎麼學?對大資料開發領域及崗位的詳細解讀,完整理解大資料開發領域技術體系大資料
- 你知道嗎?未來我國大資料應用技術的發展將涉及這些熱點領域 大資料大資料
- 2015年大資料在幾個關鍵領域的應用大資料
- 如何進入大資料領域,怎樣學習?大資料
- 《隱私計算在科教衛生領域應用白皮書》正式釋出
- 淺談領域模型模型
- 領域模型驅動開發(1)模型