Bye~“大”資料

京東科技開發者發表於2020-05-17

Bye~“大”資料 Bye~“大”資料

回想起在我剛開始攻讀資料科學碩士學位的天真歲月裡,任何與大資料相關的主題都會讓我興奮不已、躍躍欲試。我試圖挖掘每一組資料中屬於3V的一部分。 (3V:2001年麥塔集團(META Group)分析師萊尼在一份報告中對大資料提出了“3D資料管理”的觀點,即認為大資料將往高速、多樣、海量3個方向發展,提出了3個特性:高速性「Velocity」、多樣化「Variety」、規模化「Volume」,統稱3V。)我想要從無窮無盡的資料流中提煉出可供分析的資料,然後去建模、製作資料視覺化、進行資料轉換等等。但時間來到當下,每每看到“大資料”這3個字,總會不自覺地讓我揚起眉毛,內心不斷地猜想接下來又會出現的是哪一個同樣“流行”又“模糊”的科技熱詞呢?

01 “熱點”與“現實”

我最近對於一些網際網路看上去“高大上”的話變得十分敏感。比如“讓大資料為數字化時代賦能”,這句話看上去真的很酷!但它的意義是什麼呢?面對現實生活中受困於Excel表格、沮喪卻不得不人手緩慢運算過程的企業或個人,這句很“酷”的話究竟是想要表達什麼?

大資料令人感到興奮是因為它代表了一種巨大的財富,你可以在其中搜尋、查詢並使用對你有價值的任何東西。我最初對於大資料的看法是認為“在所有這些資料中,肯定有什麼深層含義是我們絕對想知道的”。我這種想法或許是對的,但要從大量資料中找到那些有價值的東西,我們要付出什麼代價呢?

02 沒有正確的基礎架構,大資料無異於垃圾

在處理大資料之前,我們需要先搭建好資料處理的基本架構,以確保整個系統擁有強大的計算能力、儲存能力、以及資料傳輸等能力。這通常需要花費一筆龐大的開支,同時,還會遇到各種意想不到的瓶頸。隨著雲平臺的發展,雖然計算能力變得更加便宜和易於使用,但隨著雲端儲存的指數級增長,雲端計算的日常使用甚至本地伺服器的維護都是一筆不小的開銷。因此,這裡也出現了一個本世紀很有意思的迷思:

有時候,對某些企業/個人而言像黃金一樣的資料,於另一些企業/個人而言就是浪費整個儲存空間和算力的垃圾。

目前的現狀是,很多公司都是先花錢挖掘資料,然後再回過頭來看哪些資料是真的有用的。那如果我們在收集資料之前就優先確定資料是否有用,這樣會更高效、節能一些嗎?

03 不是所有資料都是值得被關注的資料

資料科學界有句話叫“無用輸入再無效輸出”。確實,在實際應用中有很多資料實際上是不可靠且需要下很大功夫清理才能被使用的資料。而且,時常出現的情況是,我們花費了大量精力、時間和金錢卻只能在龐大的資料集中找到少量資訊。

就像Forrester報告中說的那樣“企業中至少有60%的閒置資料”。

企業何不將用於儲存閒置資料的錢用來搭建正確的資料處理架構呢?

人們已經意識到,不是每一個資料特性都是有用的(有些甚至可能有害),資料的質量往往比數量更加重要。我們更希望資料能夠以可靠、一致的方式來呈現我們關心的事情。而這一認知也會更好地將我們領入一個可解釋的、負責任的和安全的關於AI的研究探索階段。

總結一下……

當下,我們已經意識到了資料的重要性,而之後,我們需要做的是搭建更完善的基礎架構從而更安全地使用、共享、分析資料,並且能夠更加精準地區分無用資料和有價值的資訊。我們還需要確保資料的質量和可靠性,確保全世界都可以使用它們並理解其中涵義(這對於未來AI的研究也尤為重要)。最後我想說的是,資料最根本的價值不在於龐大,而在於可靠和有效。

Bye~“大”資料

有效且可靠將為資料迎來更長的生命週期!

這話聽起來沒那麼酷,但更可愛也更讓人安心了,不是嗎?

原文連結: towardsdatascience.com/

點選“ 閱讀 ”瞭解更多精彩內容!

以上資訊來源於網路,由“京東智聯雲開發者”公眾號編輯整理,不代表京東智聯雲立場

Bye~“大”資料

Bye~“大”資料


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69912185/viewspace-2692619/,如需轉載,請註明出處,否則將追究法律責任。

相關文章