大資料並沒有死,只不過你已經不認識它了

danny_2018發表於2024-02-01

去年年初,Jordan Tigani發表了一個演講《Big data is dead》,這個演講引發了不少爭論。如果是別人談這件事,可能很多人會不以為然,不過了解Jordan Tigani的履歷的人可能就得在腦子裡多轉幾個彎了。

這哥們可不是一般人,曾經是谷歌BigQuery專案的第一批程式設計師,寫過幾本大資料的書,又是利用DuckDB開展大資料雲服務的服務商的聯合創始人。妥妥的根正苗紅的大資料前輩,連這種濃眉大眼的人都叛變了,難道大資料真的快死翹翹了嗎?

對於大資料方面的觀點,我一直是有些滯後於主流觀點的。當大家認為大資料會顛覆關係型資料庫的時候,我十分固執的認為這件事不會發生。當然涉及到自己的飯碗,固執己見是必然的。而當現在很多人在唱衰大資料的時候,我依然不以為然。因為大資料無需唱衰,大資料已經融入了社會生活。當我們跳入水裡的時候會有所感知,但是我們會感知我們走入了空氣中嗎?不會,因為我們一直存在與空氣中。大資料也是如此,當我們融入大資料的時候,大資料的關注度就降低了,我們無需感知它的存在了。

當我們每天開車上班的時候,大資料在為我們選擇出行方式與行車路徑;當我們在地鐵上遺失了貴重物品的時候,大資料幫我們很快追蹤到失物的蹤跡;大資料會讓氣象預報以小時為單位釋出,並且能夠比較準確的預測到15天甚至更遠的大致情況;大資料能幫助稅務部門發現某些人在十年前的稅務違規,能夠幫助海關發現潛在的走私行為;而當我們開啟抖音的時候,總是能刷到自己喜歡型別的小姐姐。這一切的背後都是大資料和大資料處理。大資料不是死了,而是進化了,進化得讓我們不需要感知到它的存在了,因為它的幽靈已經無處不在了。

不談大資料到底是不是已經成為了我們的空氣,單單就Jordan的那個演講來看,似乎觀點也不大靠譜,這篇演講稿裡充滿了濃厚的商業氣息,妥妥的是作為一個CPO(首席產品官)而不是一個CTO在演講。離開了谷歌BigQuery後,從事的業務變了,立場也就變了。其中的一些主要觀點都存在一些偏頗的地方。

去年3月份,在Jordan發表演講後不就,加州伯克利的資料科學家Aditya Parameswaran撰寫了一篇長文,對Jordan的一些存在錯誤的關鍵點進行了一一分析。Aditya也不是無名之輩,他發起的Ponder目前已經被SnowFlake收購。相對而言,我還是比較認同Aditya的觀點的,有興趣的朋友可以仔細閱讀一下他的文章(),具體的觀點我就不在這裡多囉嗦了。

2021年我曾經去參觀過一個智慧工廠,用2000多個機械臂替代了以前的2000名工人。當時他們的車間主管說支撐這個工廠的資料庫每天會產生一個TB的資料,這些資料需要用比較便宜一點的儲存裝置長期儲存起來。對這些資料的分析可以幫他們發現機器人參數中存在的問題,從而最佳化這些引數,進一步提高良品率。這些資料的價值是巨大的,剛開始的時候他們並不瞭解這些資料的用途,一般保留幾天後就會自動刪除。自從一個高校和他們的科研專案開展起來後,他們才發現這些資料的價值,於是他們立即投資建設了資料歸檔系統。Jordan的演講中認為歷史資料訪問頻率不高,利用價值不大 ,只是不知道如何刪除它才會被錯誤的長期儲存,這種對資料價值的描述明顯是錯誤的。

實際上我們在做智慧化運維繫統的時候也經常發現,因為缺乏歷史資料,某些演算法的應用和研究往往就無法進行。前些年構建運維知識圖譜的時候,有位客戶拿出了壓箱底的10年積累的故障案例,我們如獲至寶,不過這項工作並沒有順利的進行下去,因為他們只保留了日誌檔案和當時的分析報告,缺乏大量的指標資料,因此很難用於建模。

“計算需求不會隨著時間的推移而保持不變,因為日常工作負載的需求會有所不同,資料大小和計算維度的靈活性是關鍵”,上述Aditya的觀點正好與我上面所說的例子吻合。當我們需要某種計算的時候,經常會發現資料的不足。

大資料的計算與應用需求來自於業務,一些感覺大資料是忽悠的朋友,可能是因為企業上大資料專案的時候只是為了趕時髦,而並不是真實的需求而已。不過不要緊,計算需求會隨著時間推移而變化的,隨著企業數字化轉型的發展,你也許會在未來看到這些大資料的價值的。

我們今天所說的大資料處理早已經不是2004年穀歌發表那幾篇論文時代的大資料處理了。正如大資料興起時,Nosql能顛覆RDBMS的革命正如我所期望的那樣並沒有發生,如今我們對大資料有了更豐富的處理方式。大量的SQL ON HADOOP技術的出現,資料湖、實時數倉、湖倉一體、HTAP等技術的出現與演進,讓大資料的處理變得更加簡單了。硬體技術的發展也讓單機集中式資料庫的處理能力飛速提升。關係型資料庫也能夠處理大資料了。

隨著大語言模型的高速發展(大語言模型實際上也是大資料的產物),AI4BI的發展也在發生質變。融合計算也日益被公眾所接受,文件處理不再是MongoDB的專利,Oracle 23c中已經十分成功的將向量計算、圖計算、文件處理與傳統的關係型資料處理融為一體。融合計算會讓大資料處理更加高效,大資料應用的成本更加低廉,這隻會加快大資料價值的增值,而絕不會讓大資料死亡。

資料已經快成為與土地、勞動力、技術、資本並列成為第五生產要素了,這時候唱衰大資料的行為大多數只是一些商業的炒作而已。想給大資料燒紙的朋友可能要當心了,大資料的一絲遊魂已經進化成了人工智慧CHATGPT,而它據說已經進軍殯葬業,今後誰會給誰燒紙還真不好說啊。

來自 “ 白鱔的洞穴 ”, 原文作者:白鱔;原文連結:https://mp.weixin.qq.com/s/2iQPF0YC_Q-mmSQInzwNlQ,如有侵權,請聯絡管理員刪除。

相關文章