從 "垃圾 "資料到資料完整性的轉變
資料產生的速度越來越快,這已經不是什麼祕密。根據IDC的資料,由於在家裡工作、學習和做事的人數突然增加,2020年產生和複製了更多的資料。此外,據預測,未來5年創造的數字資料量將是數字儲存出現以來所創造資料量的兩倍以上。
但這引出了一個問題,這些資料有用嗎?還是隻是“垃圾”?答案在於組織如何管理他們的資料,那些做得好的組織不太可能遇到垃圾資料。但對於那些沒有正確的工具來管理所有的資料來源的企業來說,答案是肯定的,他們正在處理垃圾資料。
在我們討論公司如何擺脫垃圾資料的麻煩(和成本)之前,讓我們更深入地瞭解什麼是垃圾資料。首先,我們應該解決什麼是垃圾資料的問題:原始資料不是垃圾資料。這包括從交易系統、產品、裝置和其他來源建立的任何資料。
什麼是垃圾資料?
另一方面,垃圾資料是任何不受治理的資料,當你建立了一個資料副本,然後為一個特定的使用案例進行操作,而沒有將改進的資料返回到原始資料儲存,為下一次使用提高質量時,就會產生垃圾資料。Salesforce將垃圾資料分為四類:缺失的資訊、不準確的資訊、過時的資料和重複的資料。
當個人從一個更大的資料集中為一個特定的用例複製資料,對其進行修改,然後不將這些修改整合到更大的資料集中時,垃圾資料就開始積累。例如,如果你在你的記錄系統中有一個正式的客戶地址資料庫,只複製了那些在芝加哥地區的客戶,並更新了該資料的子集,而沒有更新源資料,你就創造了垃圾資料。有了垃圾資料,你就沒有一個明確的脈絡或省份,它就不能被其他人輕易地訪問和使用;更糟糕的是,你有多個不一致的“真相”版本。這最終會在一個組織內產生多個一次性的資料集,而這些資料並不能為所有使用者提供價值。垃圾資料帶來了問題。
為什麼垃圾資料是一個問題?
垃圾資料會給組織帶來許多問題,例如:
·不一致的結果,取決於你是用原始的還是複製的、修改過的資料集,如果資料包含不同的資訊,會有不同的結果,包括不同的匹配率、運營失敗,也許最糟糕的是導致糟糕的客戶體驗。
·不準確的結果,如果資料集是過時的,不完整的,或包含錯誤的資訊,輸出也會是這樣。
·隱私問題,包含任何敏感資訊的無人管理的資料副本是有風險的,因為可能不符合監管的要求,而這種風險往往是高層管理人員所不知道的,直到嚴重的問題發生,為時已晚。
·資訊保安,在任何可以建立垃圾資料的環境中,都存在著安全問題。這個問題類別的嚴重程度將根據資料的型別而有所不同。常見的例子包括不遵循內部程式,違反許可證或智慧財產權,以及資料被黑客攻擊,因為它被儲存在公司的安全操作之外。
·財務成本,由於上述任何一個原因,建立和使用垃圾資料是低效的。
然而,垃圾資料造成的最大問題是,它為實現資料完整性構建了一個障礙。通過建立資料完整性,一個組織能夠更好地發展和管理一個可信賴的資料基礎,這個資料基礎是準確的、一致的、有背景的,並帶來更明智的商業決策。
為什麼資料完整性很重要
資料完整性是指資料集的質量、可靠性、可信度和完整性。它建立在四個關鍵支柱上:企業範圍內的整合、準確性和質量、位置智慧和資料豐富。
在更大的範圍內,如果一個組織的資料具有完整性,企業領導人就可以利用這些資料做出準確的業務決策,從而獲得更好的結果。在垃圾資料的背景下,如果一個公司已經實現了資料的完整性,他們就不再需要花時間去解決資料的不一致性,糾正和審查資料。完整性的資料已經在手邊,這些資料可靠並準備好,可以開始工作了。
從垃圾資料到資料完整性的轉變
擺脫垃圾資料的最好方法是消除對它的需求。如果一個組織建立了具有高完整性的可訪問資料資產,並在一個受管理的環境中確保資料可以按照公司的政策、權利和指導方針使用,那麼員工將不再需要建立和維護資料的副本來執行一個特定的任務。通過花時間在前期投資其資料完整性,公司可以確保其資料資產的質量和安全性,並適當地提供給企業,最終節省時間和金錢。
作者:Dan Adams,Precisely公司資料戰略與運營部高階副總裁
來自 “ https://www.dbta.com/Editorial/News-Flashes/Moving ”,原文連結:http://blog.itpub.net/69925873/viewspace-2882735/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- Ocient報告:從大資料到超大規模資料集的轉變大資料
- 資料庫 資料庫的完整性資料庫
- 四說大資料時代“神話”:從大資料到深資料大資料
- 資料完整性
- 杉巖資料:從資料到洞察,如何用物件儲存支撐新型資料湖物件
- 使用DataLakeAnalytics從OSS清洗資料到AnalyticDB
- mysqldump從mysql遷移資料到OceanBaseMySql
- 使用SeaTunnel從InfluxDB同步資料到DorisUX
- 資料庫第五章資料庫完整性資料庫
- (資料科學學習手札59)從抓取資料到生成shp檔案並展示資料科學
- 使用Data Lake Analytics從OSS清洗資料到AnalyticDB
- 從物件儲存服務同步資料到Elasticsearch物件Elasticsearch
- Oracle使用RMAN從Windows遷移資料到LinuxOracleWindowsLinux
- 關於資料隱私的文化轉變
- 資料庫完整性+T-SQL資料庫SQL
- Kettle 從資料庫讀取資料存到變數中資料庫變數
- 資料庫應用系統中的資料庫完整性(上)KP資料庫
- 原創 oracle 資料完整性總結Oracle
- 雜湊函式與資料完整性 (^=◕ᴥ◕=^)函式
- 資料庫架構和物件、定義資料完整性-SQL Server資料庫架構物件SQLServer
- 從資料到視覺化:看板工具讓Excel更出色視覺化Excel
- SHA演算法:資料完整性的守護者演算法
- 新的Lakehouse,遲來的資料正規化轉變
- MySQL中複製資料表中的資料到新表中的操作教程MySql
- excel導資料到PostgresqlExcelSQL
- 走過企業智慧化的界碑:FusionData如何讓資料從資源變資產?
- spark sql與mysql 資料載入與匯出資料到mysqlSparkMySql
- 高速遷移MySQL資料到分散式時序資料庫DolphinDBMySql分散式資料庫
- KunlunDB 快速入門 4.0(從Oracle實時同步資料到kunlunDB)Oracle
- Thinkphp5框架實現獲取資料庫資料到檢視的方法PHP框架資料庫
- 如何快速的插入 100W資料到資料庫,使用PreparedStatement 最快實現!資料庫
- 從實時資料庫轉戰時序資料庫,他陪伴 TDengine 從 1.0 走到 3.0資料庫
- 從資料到洞察:DataOps加速AI模型開發的秘密實踐大公開!AI模型
- flinkcdc同步mysql資料到selectdbMySql
- 遷移sqlserver資料到MongoDbSQLServerMongoDB
- 打通資料價值鏈,百分點資料科學基礎平臺實現資料到決策的價值轉換 | 愛分析調研資料科學
- 儲存資料到MySql資料庫——我用scrapy寫爬蟲(二)MySql資料庫爬蟲
- GoldenGate實時投遞資料到大資料平臺(7)– Apache HbaseGo大資料Apache