大資料並沒有死,可能是你已經不認識它了
去年年初,Jordan Tigani發表了一個演講《Big data is dead》,這個演講引發了不少爭論。如果是別人談這件事,可能很多人會不以為然,不過了解Jordan Tigani的履歷的人可能就得在腦子裡多轉幾個彎了。
這哥們可不是一般人,曾經是谷歌BigQuery專案的第一批程式設計師,寫過幾本大資料的書,又是利用DuckDB開展大資料雲服務的服務商的聯合創始人。妥妥的根正苗紅的大資料前輩,連這種濃眉大眼的人都叛變了,難道大資料真的快死翹翹了嗎?
對於大資料方面的觀點,我一直是有些滯後於主流觀點的。當大家認為大資料會顛覆關係型資料庫的時候,我十分固執的認為這件事不會發生。當然涉及到自己的飯碗,固執己見是必然的。而當現在很多人在唱衰大資料的時候,我依然不以為然。因為大資料無需唱衰,大資料已經融入了社會生活。當我們跳入水裡的時候會有所感知,但是我們會感知我們走入了空氣中嗎?不會,因為我們一直存在與空氣中。大資料也是如此,當我們融入大資料的時候,大資料的關注度就降低了,我們無需感知它的存在了。
當我們每天開車上班的時候,大資料在為我們選擇最佳的出行方式與行車路徑;當我們在地鐵上遺失了貴重物品的時候,大資料幫我們很快追蹤到失物的蹤跡;大資料會讓氣象預報以小時為單位釋出,並且能夠比較準確的預測到15天甚至更遠的大致情況;大資料能幫助稅務部門發現某些人在十年前的稅務違規,能夠幫助海關發現潛在的走私行為;而當我們開啟抖音的時候,總是能刷到自己喜歡型別的小姐姐。這一切的背後都是大資料和大資料處理。大資料不是死了,而是進化了,進化得讓我們不需要感知到它的存在了,因為它的幽靈已經無處不在了。
不談大資料到底是不是已經成為了我們的空氣,單單就Jordan的那個演講來看,似乎觀點也不大靠譜,這篇演講稿裡充滿了濃厚的商業氣息,妥妥的是作為一個CPO(首席產品官)而不是一個CTO在演講。離開了谷歌BigQuery後,從事的業務變了,立場也就變了。其中的一些主要觀點都存在一些偏頗的地方。
去年3月份,在Jordan發表演講後不就,加州伯克利的資料科學家Aditya Parameswaran撰寫了一篇長文,對Jordan的一些存在錯誤的關鍵點進行了一一分析。Aditya也不是無名之輩,他發起的Ponder目前已經被SnowFlake收購。相對而言,我還是比較認同Aditya的觀點的,有興趣的朋友可以仔細閱讀一下他的文章(),具體的觀點我就不在這裡多囉嗦了。
2021年我曾經去參觀過一個智慧工廠,用2000多個機械臂替代了以前的2000名工人。當時他們的車間主管說支撐這個工廠的資料庫每天會產生一個TB的資料,這些資料需要用比較便宜一點的儲存裝置長期儲存起來。對這些資料的分析可以幫他們發現機器人參數中存在的問題,從而最佳化這些引數,進一步提高良品率。這些資料的價值是巨大的,剛開始的時候他們並不瞭解這些資料的用途,一般保留幾天後就會自動刪除。自從一個高校和他們的科研專案開展起來後,他們才發現這些資料的價值,於是他們立即投資建設了資料歸檔系統。Jordan的演講中認為歷史資料訪問頻率不高,利用價值不大 ,只是不知道如何刪除它才會被錯誤的長期儲存,這種對資料價值的描述明顯是錯誤的。
實際上我們在做智慧化運維繫統的時候也經常發現,因為缺乏歷史資料,某些演算法的應用和研究往往就無法進行。前些年構建運維知識圖譜的時候,有位客戶拿出了壓箱底的10年積累的故障案例,我們如獲至寶,不過這項工作並沒有順利的進行下去,因為他們只保留了日誌檔案和當時的分析報告,缺乏大量的指標資料,因此很難用於建模。
“計算需求不會隨著時間的推移而保持不變,因為日常工作負載的需求會有所不同,資料大小和計算維度的靈活性是關鍵”,上述Aditya的觀點正好與我上面所說的例子吻合。當我們需要某種計算的時候,經常會發現資料的不足。
大資料的計算與應用需求來自於業務,一些感覺大資料是忽悠的朋友,可能是因為企業上大資料專案的時候只是為了趕時髦,而並不是真實的需求而已。不過不要緊,計算需求會隨著時間推移而變化的,隨著企業數字化轉型的發展,你也許會在未來看到這些大資料的價值的。
我們今天所說的大資料處理早已經不是2004年穀歌發表那幾篇論文時代的大資料處理了。正如大資料興起時,Nosql能顛覆RDBMS的革命正如我所期望的那樣並沒有發生,如今我們對大資料有了更豐富的處理方式。大量的SQL ON HADOOP技術的出現,資料湖、實時數倉、湖倉一體、HTAP等技術的出現與演進,讓大資料的處理變得更加簡單了。硬體技術的發展也讓單機集中式資料庫的處理能力飛速提升。關係型資料庫也能夠處理大資料了。
隨著大語言模型的高速發展(大語言模型實際上也是大資料的產物),AI4BI的發展也在發生質變。融合計算也日益被公眾所接受,文件處理不再是MongoDB的專利,Oracle 23c中已經十分成功的將向量計算、圖計算、文件處理與傳統的關係型資料處理融為一體。融合計算會讓大資料處理更加高效,大資料應用的成本更加低廉,這隻會加快大資料價值的增值,而絕不會讓大資料死亡。
資料已經快成為與土地、勞動力、技術、資本並列成為第五生產要素了,這時候唱衰大資料的行為大多數只是一些商業的炒作而已。想給大資料燒紙的朋友可能要當心了,大資料的一絲遊魂已經進化成了人工智慧CHATGPT,而它據說已經進軍殯葬業,今後誰會給誰燒紙還真不好說啊。
來自 “ 白鱔的洞穴 ”, 原文作者:白鱔;原文連結:https://mp.weixin.qq.com/s/2iQPF0YC_Q-mmSQInzwNlQ,如有侵權,請聯絡管理員刪除。
相關文章
- 大資料並沒有死,只不過你已經不認識它了大資料
- JDK1.5 我已經不認識了JDK
- C# 中的 ref 已經被放開,或許你已經不認識了C#
- 你沒有大資料大資料
- IP,PV ,UV 它們認識你,你認識它們嗎
- 研究發現意識並沒有思想強大
- 你已經毀了JavaScriptJavaScript
- 資料庫已死資料庫
- transformjs汙染了DOM?是你不瞭解它的強大ORMJS
- Apple Arcade 已經兩個月沒有新款遊戲了APP遊戲
- CSS並不簡單--帶你認識不一樣的marginCSS
- 圖文並茂,帶你認識 JVM 執行時資料區JVM
- 已經有JBUILDER9了??UI
- 大資料四大常識,不會你敢說自己在做大資料?大資料
- CSS並不簡單--帶你認識不一樣的漸變CSS
- 資料清洗太難了?那是你沒有好工具,讓Smartbi來幫你!
- 你真的已經搞懂JavaScript了嗎?JavaScript
- 已經有 Prometheus 了,還需要夜鶯?Prometheus
- 合同管理效率太低?可能是你工具沒有選對
- 殺死郵件?這8個理由讓你還沒法離開它
- 資料死鎖:營銷人員沒有有效利用消費者資料
- 大資料其實沒那麼有用,但是炒作它的人確實是都賺錢了大資料
- 科技愛好者週刊(第 244 期):大資料已死大資料
- transformjs 汙染了 DOM? 是你不瞭解它的強大 | 掘金技術徵文ORMJS
- Linux的這七大認識誤區,你千萬別有!Linux
- 訊息推送平臺有沒有保證資料不丟?
- 1.4. 認識你的資料庫版本號資料庫
- 幽默:沒有資料庫的架構來了資料庫架構
- 資料探勘——認識資料
- 程式設計已死?資料勝出!程式設計
- 工信部認證的大資料工程師證書你有多瞭解?大資料工程師
- 你的.vue檔案就已經是你的文件了Vue
- 第一篇之認識大資料大資料
- 特效不達預期?可能是你在原畫階段就沒做好特效
- 認識並使用PromisePromise
- 認識並使用 PromisePromise
- 你已經用上 5G 網路了嗎?
- 有了它,Golang 也能 Eval 了Golang