用好工業大資料的基礎是資料質量

danny_2018發表於2023-10-09

工業大資料的重要作用是支援智慧決策。我們可以把計算機的智慧決策抽象成一個數學公式,即計算Y=F(X)。我們進行這種計算時,潛伏著一個基本的要求:X和Y是與某個特定物件相關聯的引數。比如,X某個產品的效能,X是生產這個產品時的工藝引數。X、Y背後都與某個特定的產品關聯著。顯然,如果對應關係出現差錯,計算就會出現問題。

怎麼才能對應好呢?要解決這個問題,要從源頭上考慮問題。

首先要從提高生產過程的標準化和穩定性做起。當我們計算Y=F(X)時,預設一個條件:X確定之後Y就確定了。如果生產過程標準化程度和穩定性差,往往意味著X確定之後生產過程仍然有較大的“自由度”。這就意味著,對Y存在不可見因素的影響。這時,X確定了Y也不能確定。由此可見,管理不好的企業,難以有效地利用工業大資料。

其次要關注資料的採集過程。資料採集時,如果是人類輸入資料,則資料的精度和時間往往就難以把握。所以,在資料質量要求高的過程,資料必須是機器自動採集的。機器採集的本質好處,是能把生產和採集的過程統一起來,讓資料空間準確描述物理空間。另外需要關注的是:如果人們對資料的精度要求高,就要考慮資料採集過程本身帶來的干擾。這不僅需要採集過程的標準化和穩定性,還要增加用於研究採集過程干擾的資料。

第三要解決產品在不同工位的資料對應問題。在流水線上生產時,產品在每個工位上的資料都要對應好。產品從一個工位走到另外一個工位時,是容易跟丟的。所以,物料移動的自動化很重要。這種條件下,讓機器自動地記錄,產品就不容易跟丟。所以,我看一個企業的智慧化程度時,往往比較關注廠內物流的自動化。

第四個要解決的是時間的一致性問題。有些產品的質量或效能與加工或等待的時間有關。從加工裝置採集資料時,可能採用裝置自己的時鐘。如果裝置的時鐘不統一,加工或等待時間就難以準確計算。另外,有些時候我們需要分析因果關係,而因果關係的屬性之一是“原因在先\結果在後”。裝置時鐘不統一時,先後關係和延遲時間就難以判斷,從而嚴重影響資料質量。

如果我們不從源頭上解決問題,很可能花了很多功夫做資料分析,最後無功而返。如果不在資料質量上下功夫,一味地關注模型或演演算法,很可能是緣木求魚。遺憾的是:很多人就是這麼做的。從上面的分析也可以看出:應用好工業大資料,並非僅僅是資料工作者的事情。

技術工作者最怕的是技術邏輯中的斷點。從事智慧化工作時,可能需要大量的資料;一條資料有問題,可能會影響整個系統的穩定、可靠性。資料質量問題就像一粒塵土,當它擺在技術人員面前時,可能會成為阻礙技術走向成功的高山。資料質量決定於應用場景。應用場景不同,資料質量的內涵就不一樣。常見的內涵包括資料的精度、種類、採集和傳遞頻度、儲存的週期等。所以,資料的高質量有賴於資料的儲存和處理能力。

做資料分析工作有時就像(就是)搞科學研究,資料質量決定了你能夠研究的深度。資料質量達不到一定的程度,有些問題就沒有辦法解決。反之,如果資料質量高到一定程度,研究工作就可能帶來突破。從某種意義上說,資料分析師機會的多寡,決定於資料質量。

幾年前討論“工業大資料”概念時,我提出一個觀點:工業大資料時代的本質,是資料質量足夠高的時代。我們推進企業的數字化轉型,本質上就是讓計算機多幹活;在工業場景下,計算機幹活的關鍵是安全、穩定、少出錯;而安全、穩定、少出錯的關鍵,是有較高的資料質量;如果資料的採集、儲存、處理能力不足,資料質量就難以提升;工業大資料時代,讓我們有條件解決資料質量問題。

來自 “ 資料工匠俱樂部 ”, 原文作者:郭朝暉;原文連結:https://mp.weixin.qq.com/s/1m0NnaowSYur-QcVnrN3tg,如有侵權,請聯絡管理員刪除。

相關文章