大資料並沒有死,只不過你已經不認識它了
去年年初,Jordan Tigani發表了一個演講《Big data is dead》,這個演講引發了不少爭論。如果是別人談這件事,可能很多人會不以為然,不過了解Jordan Tigani的履歷的人可能就得在腦子裡多轉幾個彎了。
這哥們可不是一般人,曾經是谷歌BigQuery專案的第一批程式設計師,寫過幾本大資料的書,又是利用DuckDB開展大資料雲服務的服務商的聯合創始人。妥妥的根正苗紅的大資料前輩,連這種濃眉大眼的人都叛變了,難道大資料真的快死翹翹了嗎?
對於大資料方面的觀點,我一直是有些滯後於主流觀點的。當大家認為大資料會顛覆關係型資料庫的時候,我十分固執的認為這件事不會發生。當然涉及到自己的飯碗,固執己見是必然的。而當現在很多人在唱衰大資料的時候,我依然不以為然。因為大資料無需唱衰,大資料已經融入了社會生活。當我們跳入水裡的時候會有所感知,但是我們會感知我們走入了空氣中嗎?不會,因為我們一直存在與空氣中。大資料也是如此,當我們融入大資料的時候,大資料的關注度就降低了,我們無需感知它的存在了。
當我們每天開車上班的時候,大資料在為我們選擇出行方式與行車路徑;當我們在地鐵上遺失了貴重物品的時候,大資料幫我們很快追蹤到失物的蹤跡;大資料會讓氣象預報以小時為單位釋出,並且能夠比較準確的預測到15天甚至更遠的大致情況;大資料能幫助稅務部門發現某些人在十年前的稅務違規,能夠幫助海關發現潛在的走私行為;而當我們開啟抖音的時候,總是能刷到自己喜歡型別的小姐姐。這一切的背後都是大資料和大資料處理。大資料不是死了,而是進化了,進化得讓我們不需要感知到它的存在了,因為它的幽靈已經無處不在了。
不談大資料到底是不是已經成為了我們的空氣,單單就Jordan的那個演講來看,似乎觀點也不大靠譜,這篇演講稿裡充滿了濃厚的商業氣息,妥妥的是作為一個CPO(首席產品官)而不是一個CTO在演講。離開了谷歌BigQuery後,從事的業務變了,立場也就變了。其中的一些主要觀點都存在一些偏頗的地方。
去年3月份,在Jordan發表演講後不就,加州伯克利的資料科學家Aditya Parameswaran撰寫了一篇長文,對Jordan的一些存在錯誤的關鍵點進行了一一分析。Aditya也不是無名之輩,他發起的Ponder目前已經被SnowFlake收購。相對而言,我還是比較認同Aditya的觀點的,有興趣的朋友可以仔細閱讀一下他的文章(),具體的觀點我就不在這裡多囉嗦了。
2021年我曾經去參觀過一個智慧工廠,用2000多個機械臂替代了以前的2000名工人。當時他們的車間主管說支撐這個工廠的資料庫每天會產生一個TB的資料,這些資料需要用比較便宜一點的儲存裝置長期儲存起來。對這些資料的分析可以幫他們發現機器人參數中存在的問題,從而最佳化這些引數,進一步提高良品率。這些資料的價值是巨大的,剛開始的時候他們並不瞭解這些資料的用途,一般保留幾天後就會自動刪除。自從一個高校和他們的科研專案開展起來後,他們才發現這些資料的價值,於是他們立即投資建設了資料歸檔系統。Jordan的演講中認為歷史資料訪問頻率不高,利用價值不大 ,只是不知道如何刪除它才會被錯誤的長期儲存,這種對資料價值的描述明顯是錯誤的。
實際上我們在做智慧化運維繫統的時候也經常發現,因為缺乏歷史資料,某些演算法的應用和研究往往就無法進行。前些年構建運維知識圖譜的時候,有位客戶拿出了壓箱底的10年積累的故障案例,我們如獲至寶,不過這項工作並沒有順利的進行下去,因為他們只保留了日誌檔案和當時的分析報告,缺乏大量的指標資料,因此很難用於建模。
“計算需求不會隨著時間的推移而保持不變,因為日常工作負載的需求會有所不同,資料大小和計算維度的靈活性是關鍵”,上述Aditya的觀點正好與我上面所說的例子吻合。當我們需要某種計算的時候,經常會發現資料的不足。
大資料的計算與應用需求來自於業務,一些感覺大資料是忽悠的朋友,可能是因為企業上大資料專案的時候只是為了趕時髦,而並不是真實的需求而已。不過不要緊,計算需求會隨著時間推移而變化的,隨著企業數字化轉型的發展,你也許會在未來看到這些大資料的價值的。
我們今天所說的大資料處理早已經不是2004年穀歌發表那幾篇論文時代的大資料處理了。正如大資料興起時,Nosql能顛覆RDBMS的革命正如我所期望的那樣並沒有發生,如今我們對大資料有了更豐富的處理方式。大量的SQL ON HADOOP技術的出現,資料湖、實時數倉、湖倉一體、HTAP等技術的出現與演進,讓大資料的處理變得更加簡單了。硬體技術的發展也讓單機集中式資料庫的處理能力飛速提升。關係型資料庫也能夠處理大資料了。
隨著大語言模型的高速發展(大語言模型實際上也是大資料的產物),AI4BI的發展也在發生質變。融合計算也日益被公眾所接受,文件處理不再是MongoDB的專利,Oracle 23c中已經十分成功的將向量計算、圖計算、文件處理與傳統的關係型資料處理融為一體。融合計算會讓大資料處理更加高效,大資料應用的成本更加低廉,這隻會加快大資料價值的增值,而絕不會讓大資料死亡。
資料已經快成為與土地、勞動力、技術、資本並列成為第五生產要素了,這時候唱衰大資料的行為大多數只是一些商業的炒作而已。想給大資料燒紙的朋友可能要當心了,大資料的一絲遊魂已經進化成了人工智慧CHATGPT,而它據說已經進軍殯葬業,今後誰會給誰燒紙還真不好說啊。
來自 “ 白鱔的洞穴 ”, 原文作者:白鱔;原文連結:https://mp.weixin.qq.com/s/2iQPF0YC_Q-mmSQInzwNlQ,如有侵權,請聯絡管理員刪除。
相關文章
- 大資料並沒有死,可能是你已經不認識它了大資料
- C# 中的 ref 已經被放開,或許你已經不認識了C#
- 你沒有大資料大資料
- 大資料四大常識,不會你敢說自己在做大資料?大資料
- 不識Netty真面目,只緣未讀此真經Netty
- 雲ERP真的已經玩不轉了嗎?
- 系統幹崩了,只認程式碼不認人
- 只要你不認慫,生活就沒辦法撂倒你
- 訊息推送平臺有沒有保證資料不丟?
- 你有使用過figure標籤嗎?說說你對它的認識,有哪些應用場景?
- 2020已經過去五分之四了,你確定還不來了解一下JS的rAF?JS
- Apple Arcade 已經兩個月沒有新款遊戲了APP遊戲
- 圖文並茂,帶你認識 JVM 執行時資料區JVM
- 金融大資料分析還不簡單,有了Smartbi簡單幾步就能搞定大資料
- 大資料學習計劃【2019經典不斷更新】大資料
- 封閉了內心卻包容了天下,閉包你並不孤獨
- 《魔獸世界》9.0來了,可能已經是你認不出的樣子了
- 買量生,不買死,抖音爆款當真活不過半年?
- 猶豫不決要不要學web前端?那是你沒看到它的價值Web前端
- 暢銷前10佔4款,國產手遊已經攻破日本市場?不,還遠遠沒有
- 你都畢業3年了,怎麼還只會增刪改查,連kafka都沒有聽過?Kafka
- 《死亡擱淺》講了個好故事,但這不代表你非要愛上它
- 如果不會這兩招,千萬不要說你懂大資料大資料
- 資料清洗太難了?那是你沒有好工具,讓Smartbi來幫你!
- 1. 不吹不擂,第一篇就能提升你對Bean Validation資料校驗的認知Bean
- 靜安58歲男子餓死家中?不實!同樓居民還原事情經過
- 學會了這些技術,你離BAT大廠不遠了BAT
- [Webpack並不難]把它當人物養成遊戲吧。Web遊戲
- 你有沒思考過,如何加入這場大模型浪潮?大模型
- SAP freelancer夫妻並不難!你也可以!
- 只知道ajax?你已經out了
- 求職準備-認識自己,不負自己求職
- 做個調查,你多久已經沒有升職加薪了?
- 有頭有臉的大資料風控服務商,終究逃不過搞貸款這條路大資料
- 雲端計算、大資料和人工智慧有什麼區別?理清楚其實並不難大資料人工智慧
- 致所有不學習的人:你將“死”於35歲
- 您是否對大資料感興趣?對程式語言了不瞭解?這不零基礎可以學了大資料
- Redis資料已經過期了,為什麼還佔用記憶體?Redis記憶體