資料是黃金還是垃圾?
▌ 資料是黃金還是垃圾?
網際網路的出現,特別是移動網際網路的飛速發展產生了大量的資料。這些海量資料是公司開展業務的寶貴財富。經常有人說:“資料是未來的石油”,“資料是未來的鈔票”,“資料是未來的黃金”。如果資料真的那麼有價值,那麼無限增加資料就會帶來無限的價值,公司光靠不斷積累資料就能成為世界上最有價值的公司。事實上,今天龐大的資料儲存量已經為各公司帶來了沉重的技術和財務負擔,那麼資料到底是黃金還是垃圾呢?
▌ 資料的價值
對大多數公司而言,挖掘資料所產生的價值對業務影響極大。例如,各種商業活動會在交易平臺上產生不同的交易資料,這些資料經過清洗、過濾、整理和分析可以提供給商戶,完成客戶服務、精準營銷、風險評估等各種工作,為公司帶來價值,因此,從這個角度來說,資料的價值如同黃金一般珍貴。
▌ 資料的成本
儲存資料是需要成本的,資料的成本絕非只有物理儲存空間成本那麼簡單,實際上它包括了下述五種成本要素:
物理儲存器
各種專用或通用的資料儲存裝置或者分散式儲存裝置
人員和軟體
為了有效地管理儲存而必須配備的人員與軟體所投入的資金和努力
電力和空間
為確儲存儲系統能正常執行所需要的電力和IDC機房空間的投入
遍歷的時間
為了檢索資料而不得不遍歷儲存空間所耗費的時間
災備的成本
為了保證資料安全而進行資料備份所需要的各類資源,資料的成本 = 物理儲存器 + 人員和軟體 + 電力和空間 + 遍歷的時間 + 災備的成本。
▌ 資料的成本價值困局
資料對企業的價值並非相同。在許多企業中,時間會減低我們可以從任何特定資料元素中所獲得的價值。例如,很多舊資料對建立交易模型用處不大。某個客戶與電子商務平臺互動的舊記錄可能有用,但其價值遠不如最新的資料。電話公司幾年前的詳細通話記錄沒有最新的通話記錄對使用者的價值大。三年前的銀行交易記錄不如最近幾個星期的有用。人們可能會偶爾看一下老照片和老視訊,但是經常看的還是最近上傳的新照片和新視訊。雖然我們不能說所有的舊資料都沒有新資料價值大,但在大多數的情況下,新資料更有價值是一個事實。
上面的表達方法叫RFM圖,R代表資料的產生時間(Recent), F代表資料的使用頻率,M代表以貨幣表達的資料價值(Monetary)。從上面的RFM圖可以看出,越是最近產生,越是經常使用的資料其貨幣價值越高(右後上方的頂點)。相反,產生很久,而且不常使用的資料幾乎沒有什麼貨幣價值。
如果資料的價值隨著時間的推移而降低,那麼為什麼我們還要儲存那麼多的資料呢? 我們把這個問題叫作資料的成本價值困局。大多數公司並沒有對資料價值隨時間的推移逐漸降低和維持高速增長的資料成本這些事實引起高度注重。通常情況下,更新、更快儲存技術的出現使我們能夠以更低的初始成本來儲存相同數量的資料,或者用相同的成本來儲存更多的資料。隨著單位儲存成本的下降,我們要儲存更多資料的願望也逐漸膨脹。在高速增長的公司,除了要考慮資料的價值很可能會隨著時間的推移而降低的事實之外,我們還要考慮雖然單位儲存成本下降,但儲存資料的總成本極有可能增加的事實。如何對此做出合理的決策對大多數企業提出了獨特的新挑戰。
▌ 成本與價值匹配的策略
如果法律或法規要求你保留歷史資料,比如電子郵件或財務交易記錄,那麼別無選擇,只能遵守法律。在其它情況下,你可以對資料的價值和儲存它的成本進行評估。
MBA課程往往花費大量時間去討論什麼樣的客戶是非贏利性客戶。所謂的非贏利性客戶是指那些為了維持這些客戶,所花費的成本超過從其本身所能獲得的利潤。利潤也包括由於這些客戶的引見而帶來的業務所產生的利益。在理想情況下,最好不要保持非贏利性客戶或停止繼續為他們提供服務。篩選非贏利性客戶的概念同樣也適用於篩選資料。在大多數情況下,經過足夠的調查分析,你很有可能會發現什麼資料能增加收益,什麼資料會降低收益。就像某些客戶不能給企業帶來利潤一樣,某些資料能帶給我們的價值遠低於用於維護它們所花費的成本。
每種選擇方案都有一定的價值。準確的價值則取決於最終所選擇的方案能夠帶來的利益。資料選項的價值有限度,為了給這個價值一個界限,我們應該開始回答下述五個問題:
我們過去經常依靠資料做出有價值的決定嗎?
在那個決定中,我們使用多久以前的資料?
該資料最終創造的價值是多少?
維護這些舊資料的成本是多少?
平衡成本,最終的結果我們贏利嗎?
提出這些問題並不意味著要從系統中刪除所有的資料。如果沒有一些有意義的資料,平臺可能無法運作。確切地說是要指出應該評估和質疑保留資料的策略,以確保所有儲存的資料都有價值。如果在過去你沒有依靠資料做出更好的決定,那麼從明天開始使用所有資料的機會也不會太大。即使你開始使用資料,也不太可能使用所有的資料。因此,應該確定:
哪些資料具有真正的價值?
哪些資料有價值但應該儲存在低成本的儲存系統?
哪些資料可以刪除?
然而,在大多數情況下,資料的價值會隨著時間的推移而降低,無限的資料不等同於無窮的價值。兩者會有一個平衡點,在該點之後,舊資料的價值開始明顯地衰減。因此需要了解資料的價值,把資料在某一年的價值與之前二年、五年的價值進行比較,以此類推,從而確定一個資料不再帶來贏利的時間點和額外資料的增加會對保留客戶、做出更好決策等等帶來的接近於零價值的時間點。
▌ 解決困局方案
分層儲存
在認識到某些資料具有巨大價值、某些資料具有較低價值、某些資料可能有價值、某些資料根本沒有價值之後,我們就可以為有價值的資料設計一種以成本為劃分標準的分層儲存方案,並刪除具有較低價值或沒有價值的資料。還可以將資料進行轉換和壓縮以確保以顯著的低成本保留大部分有價值的資料。
假設一家公司確認它的一部分資料具有真正的價值,但儲存成本高於資料所創造的價值。這意味著到了應該考慮分層儲存方案的時候了。許多公司以業務處理系統的需求為主選擇某種型別的儲存系統。這個決定的結果是幾乎所有系統和應用都依賴優質的儲存系統。儘管絕不是所有的其它系統都需要冗餘性、高可用性和與主要業務處理系統一樣快的響應時間。對於具有較低價值的服務和需求,可以考慮使用資料的分層儲存方案。
例如,可以把不經常訪問,不需要立即響應的資料存放在較慢的、低成本和低功耗的儲存裝置上。另一個選擇是分割架構,以服務其中的某些應用的資料需求,以解決“存檔資料服務”的功能。為了節省處理能力,也許對“存檔資料服務”的請求以非同步方式進行傳送,當結果生成後發電子郵件通知。
也有許多其他的選擇可以通過分層的解決方案來降低成本。不常訪問的客戶資料可以放在雲端儲存系統。對於舊的和不變的資料,可以把它們從資料庫中刪除並以靜態形式儲存。資料越舊,就越不被頻繁地訪問到;因此,隨著時間的推移,可以轉移到較低的儲存層。
該解決方案匹配成本及其所能創造的價值。並不是每個系統或每條資料都能對公司的業務提供相同的價值。通常我們根據公司員工的技能或對公司的價值為員工支付薪水,那麼,為什麼不以同樣的方式去設計系統呢?如果某組資料有價值,但不多,那隻需為它們構建一個能和它們的價值相當的系統。這種方法確實存在一些缺點,例如要求運維人員支援和維護多個儲存層,但只要對這些額外成本進行適當的評估,分層儲存系統就可以適用於許多公司。
▌ 資料轉換
資料轉換所遵循的原則是基於ETL“提取、轉換和載入”(Extract, Transform and Load)的過程。ETL的概念可以幫助你避免在業務系統中儲存大量資料。在理想情況下,這些ETL過程,除了從主要業務系統中刪除資料之外,與保留同樣時間段的原始資料相比,它還會減少對整體儲存量的需求。將昂貴的詳細記錄濃縮成彙總表和事實表,致力於回答特定的問題,有助於節省空間和加快處理。
例如,如果要做出正確的業務決策,需要考慮到市場營銷部門所關心的每個客戶行為的需求。市場營銷部門可能對在一段時間內購買一定數量以上產品的人口統計分析有興趣。為了滿足這些需求,儲存每次購買的原始記錄可能是最靈活的方式,但是市場營銷部門可能覺得也可以按月統計客戶購買產品的數量。突然之間,對資料的要求降低了:因為許多客戶都是回頭客,所以可以把每個原始交易記錄拆分成買方記錄、交易物品記錄和每月購買物品數量記錄。現在可以把線上交易記錄保持四個月,以便生成最新的季度詳細報告,然後把這些具體的交易資訊彙總成買方個人摘要提供給市場營銷部門,同時彙總成內部各部門摘要提供給財務部門使用。實施這個計劃後,需要儲存的資料量可能減少高達50%。此外,這個計劃也幫助我們降低了應用生成報表所需的響應時間,提高了市場營銷部門的效率。
又如,如果以提供更好客戶體驗資料處理為宗旨,那麼當客戶使用平臺時,我們可能會向客戶推薦產品。這些推薦可能包括其他看過或買過同類產品的客戶還購買了什麼其他的產品。當使用者在選購時,應用程式通過掃描所有的購買記錄來計算和展示該客戶與產品關聯的圖表,這項工作可能太複雜,在這麼短的時間裡根本無法實現。出於這個原因,我們希望提前處理和保留產品與客戶的關係。這樣,在計算的同時也減少了儲存所有歷史交易細節的必要。產生預處理關係圖表不僅加快了對客戶的響應時間,而且也減少了長期儲存資料的需求。
▌ 總結
資料變舊和數量增長,會使公司的運營成本增加。同時在資料變舊之後,對企業的價值通常會降低。執著於那些過期資料價值的原因包括無知、感性的選擇價值。我們應該用真正的貨幣價值而不是感性的、主觀臆斷的價值來正確地分析資料存在的價值。
在確定了資料價值及其成本之後,則應考慮實施分層儲存系統,使資料存取的成本和資料所帶來的價值相匹配。這種分層策略,一方面是採用先進的高速儲存裝置;另一方面是刪除或清理價值較低的資料。對於那些即使在數量上有所減少卻不會顯著改變其價值的資料,資料轉換和彙總能夠將有助於降低成本和增加盈利。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31562044/viewspace-2220361/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 買黃金,還是買比特幣?比特幣
- MySQL單表資料不要超過500萬行:是經驗數值,還是黃金鐵律?MySql
- 什麼是黃金映象?
- 黃東旭:“向量資料庫”還是“向量搜尋外掛 + SQL 資料庫”?資料庫SQL
- 資料庫是平替還是改造?資料庫
- 轉行IT做碼農,現在還是IT行業的黃金時期嗎?行業
- “to B”的金礦還是BAT的?BAT
- “傻子”還是“瞎子”?那些遊戲裡的黃油漆是給誰看的?遊戲
- “香餑餑”Metaverse是資本的金錢遊戲還是未來發展主流?Metaverse遊戲
- 究竟先操作快取,還是資料庫?快取資料庫
- 資料庫,邏輯刪還是物理刪?資料庫
- 到底是先更新資料庫還是先更新快取?資料庫快取
- 皇御貴金屬:什麼是黃金T+D交易,如何做單?
- 研究表明55歲數是當領導的黃金年齡
- 分析資料分析的幾大黃金法則
- 盲目崇拜資料,是因為還不曾真正瞭解資料
- Peter Thiel:比特幣會是“黃金的一個網上等價物”比特幣
- 網路安全將是未來10年裡面的黃金產業產業
- 史玉柱:征途和黃金醬酒是事業,不會賣!
- 爭論不休的一個話題:金額到底是用Long還是BigDecimal?Decimal
- 管你MySQL還是Oracle,資料庫管理就完事了MySqlOracle資料庫
- 資料科學大Battle,你站Python還是R資料科學BATPython
- redis存json資料時選擇string還是hashRedisJSON
- 應用適配資料庫還是資料庫適配應用資料庫
- 一文讀懂選擇資料湖還是資料倉儲
- Redis 儲存物件資訊是用 Hash 還是 StringRedis物件
- 500萬的勒索贖金預算,批還是不批?
- 帶玩家重回戰棋黃金時代,《鈴蘭之劍》是認真的
- pdf是圖片還是文件 pdf格式是文字檔案還是影像檔案
- 大資料開發好還是大資料分析好?哪個薪資高?大資料
- 資料科學領域,你該選 Python 還是 R ?資料科學Python
- GPT-4:思考的曙光還是資料的縮影?GPT
- 語言是 Go 還是 Golang?Golang
- 資料分析的黃金時期,你再不會就晚了!
- 2.7萬隻!當前及未來仍將是量化交易的黃金期
- 世界黃金協會:2022年全球黃金展望
- 深度揭祕:大資料時代企業賣技術還是賣資料?大資料
- 皇御貴金屬:黃金投資作用都有哪些