AIGC時代的算力基石,未來的資料平臺將如何演進?

danny_2018發表於2023-10-27

我叫張為,是阿里雲資料庫的一名研究員,從事AI與資料庫相結合的產品研發工作。

我過去的經歷和人工智慧其實有過好幾段交集,最早是2003年,也就是整整20年前。當時我在清華大學人工智慧實驗室讀研究生,接觸到了非常早期的人工神經網路。有個作業是用一個非常小的神經網路來擬合一個簡單的函式,用於為我們機器人的控制新增靈活性。當時所做出來的神經網路只有三層幾十個神經元,也就是幾十個引數。用來訓練神經網路的資料,大小隻有幾個KB。用今天的視角來看,簡直不能再迷你了。今天我們常常談論GPU算力,那時候GPU剛誕生不久,它唯一的用途就是玩遊戲,所以回看當年,無論是所擁有的資料,還是我們處理資料的能力,都遠遠不能讓我們構建出接近任何生物的智慧資訊處理能力,更不要說去挑戰人類的智慧了。

讓我們把時間撥回到今天,經歷了快速發展數字化的20年,今天我們對資料的儲存分析和運算的能力,已經透過雲端計算基礎設施得到了大大的加強。隨著資料的積累,以及AI演算法的不斷迭代演進,今天的AI模型已經開始推動各行各業從數字化升級到智慧化的全面轉型。

2020年,我有幸在Facebook帶領團隊上線了第一代支援萬億引數的大模型基礎設施。從那以後我們看到超大規模的推薦模型、視覺模型,以及最近特別火熱的大語言模型紛紛問世,AI模型的能力開始推動各行各業飛快地朝著智慧化去演進。

智慧化時代,我們用數字化基礎設施收集海量資料,用AI演算法分析資料,提取其中的知識,將這些知識凝聚成大模型,再用大模型來管理和分析我們的海量資料。

在AI時代,傳統的資料服務基礎設施,尤其是資料庫將面臨什麼變化,會給我們帶來什麼樣的商業機遇。同時,在這樣一個可以利用AI演算法來深入挖掘甚至生成資料的時代,我們又會面臨什麼樣的挑戰?這就是我今天想和大家分享的話題。

基礎資料服務已經給我們今天的生活帶來了巨大的便利。請大家看一下左邊的例子,例如只要開啟你的支付寶,它可以很清楚地回答,你去年把錢花在哪裡了?

請大家再去想象這樣一個場景,你想和朋友一起享受一頓晚餐,你開啟手機APP,輸入“有情調的義大利餐廳”。很快你就會得到幾百家餐廳的資訊,那麼問題來了,這些餐廳真的符合你的要求嗎?其中有多少僅僅是因為它符合了義大利或者情調這些關鍵字而被檢索出來的呢?

如果我們往更深一層去想,不同的人在不同時間也會有不同的需求,比如說情人節,或是大年三十,人們對情調的要求必然不一樣。今天的傳統資料庫不能很好地完成剛才這個任務。因為在傳統資料庫的背後,有一套相對固定的演算法邏輯,它只能按照預定的規則和關鍵詞搜尋和篩選資料。

換句話說,它缺乏對資料深度的理解。而在我們的日常生活中,從選擇餐廳到預定酒店到購物、看電影,背後都隱藏著大量的資料決策過程。在這個過程中,傳統資料庫能力的侷限性經常讓人感到很不方便。在剛才的例子裡,我們想象一下,你約朋友去吃飯,朋友會說好,然後會問你“去哪兒吃?”,這時你會感覺很頭痛,因為尋找餐廳是一件很麻煩的事。當你使用餐廳搜尋APP查詢義大利餐廳,傳統資料庫只能基於你輸入的位置、關鍵字,比如義大利,來列出附近所有包含該關鍵詞的餐廳,但實際上你可能有更多的期待和要求。

比如你希望這家餐廳提供番茄海鮮口味的義大利麵,或者希望餐廳氛圍適合約會。這時傳統的資料庫就束手無策了,因為他們很難理解和搜尋到番茄海鮮口味和義大利麵的深層次聯絡。為什麼?因為傳統的資料庫沒有真正的理解需求,只是單純的根據關鍵詞去做匹配。所以結果很可能是這樣的,你收到了50家餐廳的推薦,但其中只有兩家真正符合你的需求,於是你需要花費大量的時間去翻,一個一個去瀏覽比對,而不是直接得到你最滿意的答案。而且今天隨著資料量的不斷增加,這種不方便會體現的越來越明顯。因為你會花越來越多的時間查詢餐館的照片和評論,這會讓我們的決策變得越來越慢,越來越麻煩。無論是找餐館還是電商購物,相信大家都有類似的感受。

隨著技術的演進,人工智慧已經開始滲透到各個領域,包括資料庫技術,它所帶來的不僅僅是技術上的進步,更重要的是一種全新的思維方式。從被動的搜尋到主動的理解,這裡的理解可以分成三個層次。

第一層是對資料內容的理解。對於傳統資料庫來說,一張餐廳的照片只是一串二進位制程式碼,而對於AI驅動的資料庫,它可以看到這張照片裡的風景和蠟燭,它可以識別菜的口味,賣相,甚至感受到這家餐廳的浪漫氛圍。這種對於資料內容的深度理解,讓資料庫不僅僅是儲存和檢索的工具,它開始具有了理解資料語義的能力。

第二層是理解資料的資產。在傳統的資料庫中,一條關於餐廳的評論可能僅僅被看作文字資料,但在AI驅動的資料庫中,這條評論可以被深入挖掘,找出背後的價值。例如,當一位使用者發表了一條評論說這家餐廳的牛排味道不錯,但是環境有點兒吵。那麼AI驅動的資料庫就可以從中提取關鍵的資訊,並結合使用者的評論、照片等資料,為我們提供一個更為全面的餐廳畫像。比如這家餐廳可能不太適合約會。

最後一層是理解使用者的使用意圖,這是AI驅動的資料庫最具革命性的一點。過去,如果我們想從資料庫中查詢資訊,我們必須使用專業的查詢語言,比如SQL。但在AI驅動的世界裡,我們可以直接使用自然語言向資料庫提問,就好像和一位知識淵博的朋友聊天一樣,可以極大降低資料庫的使用門檻,讓更多的人能夠直接與資料互動。那麼這一切是如何實現的呢?在技術層面,AI為資料庫帶來了一系列創新:

首先是深度學習技術,這使得資料庫可以自動地識別和分類大量的非結構化資料,例如圖片、影片、音訊等等。例如當我們上傳一張餐廳的照片,AI驅動的資料庫可以自動為這張照片打上標籤,比如龍蝦,義大利麵等等,為後期的資料檢索提供便利。

其次是自然語言處理技術,這讓資料庫可以理解使用者語言的含義,以及資料庫裡存放資料的含義,併為使用者查詢提供更準確的答案,而不再是簡單粗暴的關鍵詞匹配。從此,我們的資料庫可以真正理解使用者的問題,並從大量的資料中找到合適的答案。

最後,AI驅動的資料庫,還具備自我學習和最佳化的能力,它可以根據使用者的習慣持續最佳化查詢的演算法,提高檢索的準確度和速度。

人工智慧與資料庫的結合,未來不僅能夠讓我們的資料庫變得更加智慧,也將為我們的生活所基於的資料化服務帶來前所未有的便捷。隨著AI技術的快速發展,資料庫的智慧化已經從理論探索走向了實踐。這樣的技術進步不僅可以改變我們的生活方式,更將為將來的數字商業帶來前所未有的機遇。

智慧化的資料庫能夠為企業帶來更精準的資料決策。在傳統的資料管理中,企業往往需要依賴大量的人力資源來分析和解讀資料。這樣的過程既費時又費力,而且常常因為主觀的偏見或者是對資料處理的不當而導致決策失誤。而現在,利用AI驅動的資料庫,企業可以迅速準確地提取他想要的資訊,能夠做出更科學、更合理的決策。

大家不妨想象一下,一家時尚服飾品牌,透過智慧化的資料庫就可以做到實時分析全球各地的時尚趨勢和消費者的反饋。透過這些資料,它可以更迅速的捕捉到新一季的流行元素,這就可以大大縮短產品的研發週期,並且確保產品能夠緊跟市場潮流,得到消費者的喜愛。

再者,智慧資料庫可以為企業開闢全新的商業模式。在AI驅動的時代,企業不僅可以透過AI分析來最佳化自身的運營,同時還可將得到的知識產品化,為其他企業、商家、個人提供AI驅動的決策服務。比如一個本地生活服務平臺,它可以透過智慧化的資料庫實時分析使用者的需求、消費習慣、評價等等,從而自動幫助商家去調整服務內容,最佳化服務質量和價格策略。另外,這個平臺還可分析使用者的行為資料,發現某些服務的潛在需求,從而幫助商家推出新的服務或最佳化現有的服務。這樣的資料分析不僅可以提高使用者的滿意度,同時還能夠為平臺和商家帶來更多的收入。

智慧化的資料庫,還可以提高企業的運營效率。因為傳統的資料管理和收集通常需要大量的人力進行資料的錄入、整理和分析、清洗。這樣的過程不僅耗時,而且非常容易出錯。智慧化的資料庫可以自動幫人類完成這些工作,從而大大減輕員工負擔,提高運營效率。總的來說,智慧化是數字化的延伸,資料庫的智慧化可以將為數字化商業帶來無限的機遇。它不僅可以幫助企業提高效率、降低成本,而且還可以為企業開闢新的收入來源。在這個資訊爆炸的時代,掌握了資料和人工智慧的企業將會站在時代的前沿,引領未來的商業競賽。

最後我們來一起看看,智慧化資料平臺會面臨什麼樣的挑戰。在我們享受智慧化資料平臺提供的智慧化服務帶來的便利的同時,我們必須清醒認識到,它會伴隨巨大的社會挑戰。這就好比駕駛一輛高速跑車,速度快是好事兒,但是如果不繫上安全帶,隨時都有可能發生事故。

隨著智慧化資料平臺對資料的理解和利用的加深,AI也可以讓資料變成對壞人有利的作案工具。想象一下,以前我們僅僅是姓名、住址、電話等簡單資訊被洩露,就已造成非常廣泛的電信詐騙困擾。

大家已經看見作為AI的重要應用領域,AIGC可以用AI來生成圖片、文字、音訊、影片等多種型別的資料,而這僅需要少量的個人資料資訊作為輸入。於是,詐騙分子就可以利用AI的資料合成技術生成虛假的圖片、影片、音訊,用於製造假新聞、網路欺詐、虛假廣告等等。這種假資料未來會急劇欺騙性,讓人難以區分真假,從而達到欺騙、詐騙、造謠、惡意攻擊等目的。

儘管有這些挑戰,但我仍然堅信,智慧化的資料平臺會推動我們社會更進一步。就像火車、汽車、網際網路一樣,每一次的技術革命都會帶來新的機遇和挑戰。關鍵在於我們怎樣把握跑車的方向盤,確保他在飛速前進的同時不會出車禍。所以我們不僅需要技術,還需要良好的規範、透明的管理並提升每個人的資料意識。這樣AI帶來的變革,才能夠成為真正推動我們進步的力量,而不是一場不受控制的狂歡。那麼面對智慧化資料平臺帶來的種種挑戰,我們該怎麼做?

在這裡,我提出四個觀點:

1. 提升資料的所有權和可追溯性。我們需要讓每一條資料都有一個所有者,就好像有個家。你想象一下,你在超市買一個商品,每個商品上都會有一個條形碼,會告訴你這是什麼,從哪裡來。我們如果把這個邏輯應用到資料上,讓每條資料有一個明確的地址和歸屬,那麼濫用資料的情況就會更易得到控制。

2. 提升使用者參與資料管理的程度。想象一下,如果我們能夠隨時瞭解自己的資料被誰用了、怎麼用的,是不是能夠安心很多?資料服務平臺需要給使用者這個權利,讓使用者可以方便檢視並管理自己的資料。

3. 大幅加強使用者的資料安全教育。直到今天,很多人其實並不清楚資料有什麼用,價值在哪裡?我們需要極大增強對資料安全的教育,要反覆向公眾普及、告訴大家資料的重要性,讓每個人都學會保護自己的資料資產,就好像保護自己的銀行賬戶一樣。

4. 制定新的資料使用的合規性審查規範。這就好比制定交通規則,自從汽車被發明出來,我們就需要制定新的交通規則,駕駛員開車也要遵守這一規則。對資料使用,尤其是AI對資料的使用也是一樣,我們必須制定一套新的規則,來保證資料的安全和隱私。

總的來說,雖然智慧化的資料平臺給我們帶來了非常多的便利,但是我們確實還要面對很多挑戰。暢想未來,我們能夠看見,隨著AI結合資料將給我們帶來無限可能。想象一下,未來我們所有的行為、所有的資料都被記錄在智慧化的資料平臺裡。甚至在不久的將來,利用AIGC的技術,可以合成生動的數字人。就好像流浪地球二一樣,我們甚至可以透過AI和死去的親人進行逼真的對話。

所以我們要控制好AI,控制好對資料的使用,我的觀點是,要想實現對AI的控制,最好的辦法就是加強對資料的控制,這不是一件容易的事情,但我相信,以人類創造AI的智慧,一定能找到最好的解決方案!在這裡我借用OpenAI CEO Sam Altman的一句話來作為結尾,We will minimize the bad and maximize the good。

來自 “ 阿里雲瑤池資料庫 ”, 原文作者:阿里雲瑤池資料庫;原文連結:https://mp.weixin.qq.com/s/Q3z67Uz7S9dBYCqUeloCrw,如有侵權,請聯絡管理員刪除。

相關文章