什麼是資料質量?

Tybyq發表於2018-11-02

資料無處不在。隨著資料建立的數量、來源和速度的增加,企業正在努力解決如何處理所有這些問題以及如何處理這些問題的現實。如果你的企業還沒有確定使用自己的資料的最有效的方法,那麼你就錯過了改變你的業務並獲得決定性優勢的關鍵機會。

當然,如果沒有好的資料,做你想做的事情就難多了。無論是推出新產品或新服務,還是簡單地響應最大競爭對手的舉動,做出明智、及時的商業決策幾乎完全取決於手頭資料的質量。

人們試圖用這樣的術語來描述資料質量 完全 準確 可接近 ,和 脫糊狀 。雖然每個詞都描述了資料質量的一個特定元素,但更大的資料質量概念實際上是關於該資料是否達到了您想要用於的目的或目的。

為什麼資料質量這麼難

差一點 85%的執行長 說他們擔心他們用來做決定的資料的質量。這種擔憂的部分原因在於,事實證明,糟糕的資料使公司付出了更大的代價。 佔其年收入的25% 在失去的銷售,失去的生產力,或錯誤的決定。

顯然,對於許多組織來說,實現資料質量仍然是一個挑戰,但解決方案並不像它們看起來的那樣虛幻。大多數企業都會遇到一些或全部直接影響資料質量的問題:

  • 孤立的資料。 又稱“資料筒倉”,這些獨立的資料組要麼屬於特定的業務單元,要麼包含在特定的軟體中。隔離資料的問題是,組織的其他部分無法訪問它,因為該軟體可能與任何其他內容不相容,或者業務單元嚴格控制使用者許可權。雖然這些資料可能提供有用的,甚至是非常有價值的洞察力,因為它不容易被訪問,但是業務不能對它形成一個完整的圖景,更不用說從中受益了。

  • 過時的資料。 企業結構龐大而複雜,有多個團隊和部門。因此,跨組織收集資料通常是一個緩慢而費力的過程。到收集所有資料時,其中一些-如果不是大多數-在相關性方面已經落後,因此大大降低了其對組織的價值。

  • 複雜的資料。 資料來自許多不同的來源和不同的形式。資料來自智慧手機、膝上型電腦、網站、客戶服務互動、銷售和營銷、資料庫等。它可以是結構化的,也可以是非結構化的。理解輸入的資料量和資料種類,並使其標準化供每個人使用是一個資源密集型的過程,許多組織沒有足夠的頻寬或專門知識來跟上。

如何實現高質量資料

和任何有價值的商業活動一樣,提高資料的質量和效用是一個多步驟、多方法的過程。以下是如何:

  1. 方法1: 大資料指令碼 獲取大量資料,並使用指令碼語言與其他現有語言進行通訊和組合,以清理和處理資料以進行分析。雖然工程師欣賞指令碼的靈活性,但它確實需要對需要合成的資料型別和資料存在的特定上下文有一個重要的理解,以便知道要使用哪種指令碼語言。判斷和執行中的錯誤會打亂整個過程。

  2. 方法2: 傳統的ETL(提取、載入、轉換)工具整合了來自不同來源的資料,並將其載入到資料倉儲中,然後準備進行分析。但是,通常需要一組技術熟練的內部資料科學家首先手動清除資料,以解決與源和目的地之間存在的模式和格式不相容的問題。更不方便的是,這些工具通常是批次處理,而不是實時處理。傳統的ETL需要基礎設施的型別、現場的專業知識以及很少有組織願意投資的時間承諾。

  3. 方法3: 開放原始碼工具提供資料質量服務,如解除欺騙、標準化、充實和實時清理,以及快速註冊和比其他解決方案更低的成本。然而,大多數開源工具在實現任何真正的好處之前仍然需要一定程度的定製。對於服務的啟動和執行,支援可能是有限的,這意味著組織必須再次依靠他們現有的IT團隊來使其工作。

  4. 方法4: 現代資料整合 透過自動整合、清理和轉換資料,然後將資料儲存在資料倉儲或資料湖中,從而消除了傳統ETL工具的手工操作。組織定義資料型別和目的地,並可以根據需要使用更新的客戶詳細資訊、IP地理定位資料或其他資訊豐富資料流。轉換過程將來自所有源和各種格式的資料標準化,使其可供組織中的任何人使用。而且,由於它實時處理資料,使用者可以檢查資料流並糾正正在發生的任何錯誤。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31557424/viewspace-2218575/,如需轉載,請註明出處,否則將追究法律責任。

相關文章