用好工業大資料的基礎是資料質量
工業大資料的重要作用是支援智慧決策。我們可以把計算機的智慧決策抽象成一個數學公式,即計算Y=F(X)。我們進行這種計算時,潛伏著一個基本的要求:X和Y是與某個特定物件相關聯的引數。比如,X某個產品的效能,X是生產這個產品時的工藝引數。X、Y背後都與某個特定的產品關聯著。顯然,如果對應關係出現差錯,計算就會出現問題。
怎麼才能對應好呢?要解決這個問題,要從源頭上考慮問題。
首先要從提高生產過程的標準化和穩定性做起。當我們計算Y=F(X)時,預設一個條件:X確定之後Y就確定了。如果生產過程標準化程度和穩定性差,往往意味著X確定之後生產過程仍然有較大的“自由度”。這就意味著,對Y存在不可見因素的影響。這時,X確定了Y也不能確定。由此可見,管理不好的企業,難以有效地利用工業大資料。
其次要關注資料的採集過程。資料採集時,如果是人類輸入資料,則資料的精度和時間往往就難以把握。所以,在資料質量要求高的過程,資料必須是機器自動採集的。機器採集的本質好處,是能把生產和採集的過程統一起來,讓資料空間準確描述物理空間。另外需要關注的是:如果人們對資料的精度要求高,就要考慮資料採集過程本身帶來的干擾。這不僅需要採集過程的標準化和穩定性,還要增加用於研究採集過程干擾的資料。
第三要解決產品在不同工位的資料對應問題。在流水線上生產時,產品在每個工位上的資料都要對應好。產品從一個工位走到另外一個工位時,是容易跟丟的。所以,物料移動的自動化很重要。這種條件下,讓機器自動地記錄,產品就不容易跟丟。所以,我看一個企業的智慧化程度時,往往比較關注廠內物流的自動化。
第四個要解決的是時間的一致性問題。有些產品的質量或效能與加工或等待的時間有關。從加工裝置採集資料時,可能採用裝置自己的時鐘。如果裝置的時鐘不統一,加工或等待時間就難以準確計算。另外,有些時候我們需要分析因果關係,而因果關係的屬性之一是“原因在先\結果在後”。裝置時鐘不統一時,先後關係和延遲時間就難以判斷,從而嚴重影響資料質量。
如果我們不從源頭上解決問題,很可能花了很多功夫做資料分析,最後無功而返。如果不在資料質量上下功夫,一味地關注模型或演算法,很可能是緣木求魚。遺憾的是:很多人就是這麼做的。從上面的分析也可以看出:應用好工業大資料,並非僅僅是資料工作者的事情。
技術工作者最怕的是技術邏輯中的斷點。從事智慧化工作時,可能需要大量的資料;一條資料有問題,可能會影響整個系統的穩定、可靠性。資料質量問題就像一粒塵土,當它擺在技術人員面前時,可能會成為阻礙技術走向成功的高山。資料質量決定於應用場景。應用場景不同,資料質量的內涵就不一樣。常見的內涵包括資料的精度、種類、採集和傳遞頻度、儲存的週期等。所以,資料的高質量有賴於資料的儲存和處理能力。
做資料分析工作有時就像(就是)搞科學研究,資料質量決定了你能夠研究的深度。資料質量達不到一定的程度,有些問題就沒有辦法解決。反之,如果資料質量高到一定程度,研究工作就可能帶來突破。從某種意義上說,資料分析師機會的多寡,決定於資料質量。
幾年前討論“工業大資料”概念時,我提出一個觀點:工業大資料時代的本質,是資料質量足夠高的時代。我們推進企業的數字化轉型,本質上就是讓計算機多幹活;在工業場景下,計算機幹活的關鍵是安全、穩定、少出錯;而安全、穩定、少出錯的關鍵,是有較高的資料質量;如果資料的採集、儲存、處理能力不足,資料質量就難以提升;工業大資料時代,讓我們有條件解決資料質量問題。
來自 “ 資料工匠俱樂部 ”, 原文作者:郭朝暉;原文連結:https://mp.weixin.qq.com/s/1m0NnaowSYur-QcVnrN3tg,如有侵權,請聯絡管理員刪除。
相關文章
- 什麼是資料質量?
- 資料質量的四大特性
- 【工業大資料】工廠大資料之資料來源分析;如何挖掘並駕馭大資料的價值,成為“大資料企業”?大資料
- 資料治理--資料質量
- 大資料:大資料之基礎語法大資料
- 工業大資料漫談17:雲端計算與工業大資料的關係大資料
- 如何提高企業資料質量
- 讀資料質量管理:資料可靠性與資料質量問題解決之道01資料質量
- 工業大資料的關鍵技術是什麼大資料
- 大資料——HBase基礎大資料
- 資料競賽:第四屆工業大資料競賽-虛擬測量大資料
- 資料治理的資料質量知多少
- 資料倉儲商業智慧的關鍵--資料質量管理
- 大資料下的質量體系建設大資料
- 資料治理:資料質量管理策略!
- 資料治理之資料質量管理
- 大資料工資這麼高,零基礎可以學習嗎?大資料
- 談談什麼是資料質量管理
- 【大資料】Spark RDD基礎大資料Spark
- 2. 大資料基礎大資料
- 什麼是資料治理,如何保障資料質量?_光點科技
- 夯實工業高質量發展制度基礎ED
- 機器學習高質量資料集大合輯機器學習
- 工業製造中的大資料分析大資料
- 資料開放與共享:德國工業4.0中的大資料大資料
- 基於工業資料的檢測分析
- 大資料工程師:大資料的java基礎 第十週大資料工程師Java
- 資料質量管理--資料抽取和清洗
- 大廠的資料質量中心繫統設計
- 基於MaxCompute的數倉資料質量管理
- 資料質量管理模型模型
- sql大資料 基礎(檢視)SQL大資料
- 基礎資料結構大賞資料結構
- 大資料基本公式——一:基礎大資料公式
- 大資料學習方法,學大資料需要的基礎和路線大資料
- 讀資料質量管理:資料可靠性與資料質量問題解決之道02資料湖倉
- 讀資料質量管理:資料可靠性與資料質量問題解決之道03資料目錄
- 什麼是大資料?零基礎如何學習大資料?(附學習路線)大資料