如何構建物聯網資料精煉廠

带你聊技术發表於2024-03-08

來源:資料驅動智慧


物聯網資料的精煉應用是跨越數字化轉型鴻溝的基礎

隨著公司根據從物聯網裝置獲得的資料實施更多的用例,甚至完成業務模式轉型,需要一種對這些資料進行資料質量管理的結構化方法變得至關重要。太多的公司試圖在質量低劣的資料基礎上擴大數字化轉型,這會導致很多挫敗感,並且幾乎沒有實際的商業利益。

我有時會用著名的“跨越鴻溝”圖進行類比。事實上,初創公司從早期創新者轉向被大多數市場採用所面臨的挑戰有相似之處。當應用於數字化轉型時,挑戰在於跨越從成功的數字化試點專案到全面實施的鴻溝

如何構建物聯網資料精煉廠

許多公司無法在試點階段之後擴大數字化轉型計劃。

行業公司最近的研究證實,資料質量是擴充套件工業分析的主要障礙之一。換句話說,眾所周知的“垃圾進——垃圾出”的口號仍然很盛行。

瞭解資料質量

現在,儘管資料質量對我們大多數人來說具有直觀的意義,但實際上它是一個具有多種可能定義的彈性概念。這些範圍可以更窄,例如:

當資料正確地代表了它想要描述的潛在現實世界現象時,資料就具有良好的質量。

根據這個定義,資料需要有效、準確、一致和完整等。資料質量的另一個常見且同樣有用的定義如下:

當資料適合目的時,資料的質量就很好。

在第二個定義中,資料結構化、可解釋性和情境化的方面也被納入考慮範圍,只要這些方面與預期用例相關。

物聯網資料精煉廠

就像煉油廠中原油的情況一樣,質量可能較差的原始資料可以得到提煉。可以將其視為透過一系列“質量門”的資料,如下所示:

  • 門 1:可訪問
    資料在可供使用時到達此門。此步驟需要成功連線到資料來源並能夠查詢/讀取樣本。

  • 門 2:結構化和情境化
    透過此門的資料是結構化和情境化的。對於物聯網資料,此步驟通常意味著已新增裝置和資產後設資料以及其他關鍵上下文。

  • 門 3:已驗證
    下一步是資料的質量驗證。此時,資料質量是根據許多關鍵維度進行評估的,包括準確性、一致性和及時性。

  • 門 4:清理
    評估資料質量通常是不夠的。許多資料產品需要資料清理作為管道的一部分來建立可供使用的資料。

  • 門 5:帶註釋
    除了清理和結構化之外,可能還需要由主題專家 (SME) 或資料管理員提供的附加標籤,以使資料適合使用。例如,可以標記資產關閉的時間段或在檢查問題後新增根本原因資訊。

  • 門 6:驗證
    對於關鍵資料(例如關鍵報告或計費中使用的資料),讓資料管理員明確驗證資料並承諾適合使用的事實通常是一種很好的做法。

  • 門 7:共享
    此時,資料已準備好共享。共享可以發生在內部或外部、與供應商或客戶。

  • 門 8:視覺化
    資料視覺化和探索是下一步。分析師可以在 PowerBI 或類似的描述性分析環境中研究資料。

  • 門 9:建模
    一些資料用於建模。此任務通常由資料科學家執行。

  • 門 10:預測
    最後,模型可用於對新傳入資料進行預測。

隨著資料透過大門,它變得更加精緻、更加值得信賴、更加有價值。我們確實可以將這個逐步過程視為“資料精煉廠”,並與煉油廠或蒸餾過程進行類比。

如何構建物聯網資料精煉廠

在真實的煉油廠中,生產各種產品。例如,靠近蒸餾塔底部的地方生產柴油和煤油等成分,用於重型卡車和噴氣式飛機。汽車中使用的汽油混合成分等較輕的成分被提取到蒸餾塔的頂部。

同樣,我們的資料精煉廠可能會產生各種資料產品。並非所有這些產品都同樣精緻。重要的是,我們知道每個產品在資料特徵和質量方面的期望。沒錯,我們不想不小心把煤油放進我們的跑車裡!

資料產品佔據中心舞臺

當公司意識到有必要明確定義資料產品作為資料基礎設施和終端使用者應用程式之間的一層時,就會出現宣洩的時刻。

資料產品由K2view定義為 𝘳𝘦𝘶𝘴𝘢𝘣𝘭𝘦 𝘥𝘢𝘵𝘢 𝘢𝘴𝘴𝘦𝘵𝘴 𝘵𝘩𝘢𝘵 𝘣𝘶𝘯𝘥𝘭 𝘦𝘥𝘢𝘵𝘢𝘵𝘰𝘨𝘦𝘵𝘩𝘦𝘳𝘸𝘪𝘵𝘩𝘦𝘷𝘦𝘳𝘺𝘵𝘩𝘪𝘯𝘨𝘯𝘦𝘦 𝘥𝘦𝘥𝘵𝘰𝘮𝘢𝘬𝘦𝘪𝘵𝘪𝘯𝘥𝘦𝘱𝘦𝘯𝘥𝘦𝘯𝘵𝘭𝘺𝘶𝘴𝘢𝘣𝘭𝘺 𝘣𝘺𝘢𝘶𝘵𝘩𝘰𝘳𝘪𝘻𝘦𝘥𝘤𝘰𝘯𝘴𝘶𝘮𝘦𝘳𝘴。這些被稱為“產品”(而不是普通資產),因為它們是為了滿足消費者的需求而設計的。

定義資料產品的好處在於:

  1. 角色和職責更加明確,並且

  2. 檢視中的資料生產者和消費者之間存在明確的一致性。

成功實施後,資料產品可以有助於消除資料生產者和消費者之間的摩擦,幫助資料團隊變得積極主動,並實現數字計劃的全面推廣。

如何構建物聯網資料精煉廠

在沒有對資料產品進行適當管理的情況下擴充套件物聯網資料用例時的預防措施。

如何構建物聯網資料精煉廠

使用託管資料產品轉向主動方法。

主要角色

現在我已經完成了場景並將資料產品放在舞臺上,讓我們介紹一下構建物聯網資料精煉廠的主要參與者。我並不是想描述最廣泛的資料相關角色集。相反,我想重點關注在實踐中實現物聯網資料質量管理的可行設定的關鍵角色。根據我的經驗,這些包括以下內容:

角色#1:資料平臺工程師

資料平臺工程師對業務起著促進作用。作為資料平臺團隊的成員,他是 IT 組織的成員,負責構建、運營和維護構成資料平臺的支援 IT 服務。

角色#2:資料工程師

資料工程師嵌入資料平臺團隊中,幫助構建和維護自動處理資料的管道。例如,他(她)可以使用編排器將連線到給定端點中的物聯網資料的構建塊組合在一起,將其與後設資料源整合,透過新增資產上下文來構建資料,應用邏輯來挖掘特徵和評分資料質量,並使生成的豐富資料可供資料管理員使用。

角色#3:資料管理員

資料管理員充當資料產品的資料質量的看門人。管理員是領域/業務專家,而不是決定資料質量何時足夠好的開發人員或基礎設施專家。這意味著他定義資料質量評分並負責資料驗證。即使資料清理可以(很大程度上)自動化,資料管理員明確承諾資料適合使用通常也很重要。

角色#4:資料分析師

資料分析師的角色可能存在於產品團隊內部,但更多時候分析師充當資料產品的消費者/使用者。在此角色中,他們使用商業智慧應用程式等工具從資料產品中查詢資料。分析師還經常接受培訓以使用 SQL 直接查詢所服務的資料。

角色#5:機器學習運維工程師

機器學習操作工程師與資料平臺工程師相對應,但對機器學習基礎設施(而不是資料平臺)負有特定責任。請注意,當使用 Databricks 等平臺時,此職責可能與資料平臺工程職責或系統範圍重疊。

角色#6:資料科學家

資料科學角色可能作為資料產品團隊的一部分存在,例如涉及預測的資料產品或挖掘從資料產品本身收集的使用資料。資料科學家也可能在資料產品團隊之外工作,作為資料產品的消費者,使用其資料構建機器學習模型。物聯網中的一個例子可能是一個團隊使用來自公開核心旋轉資產資料的資料產品的資料來構建預測維護模型。

角色#7:機器學習工程師

在較大的團隊中,可能存在特定角色來管理資料科學家建立的機器學習模型。在這種情況下,機器學習工程師負責在整個模型生命週期中管理模型,負責模型部署和模型維護的各個方面。

整合資料精煉廠

我們可以將所有這些放在一起形成一個整體圖,如下所示:

如何構建物聯網資料精煉廠

價值鏈

底部 描繪了逐步的資料精煉步驟。隨著資料從左向右移動,它會透過幾個質量關卡,變得更加精緻、更值得信賴、更有價值。我想再次強調,並非所有步驟都與每個資料產品中的每個資料點相關。

平臺團隊

在上面一層,描述了平臺團隊。他們運營資料和機器學習操作管道可以執行的平臺和 IT 服務。

資料管道

在中間部分,資料工程師設定自動化資料結構化和上下文化的核心管道。然後,資料管理員獲取自動化部分的輸出,並根據需要進一步清理、註釋和驗證資料。最終的結果是分析師和資料科學消費者/使用者能夠以高質量的資料為基礎,感到高興。

賦能團隊

最後,圖中的頂層新增了治理和支援團隊。這些團隊也是資料產品矩陣結構的重要組成部分。

資料產品在哪裡呢

我可以想象,此時您想知道資料產品隱藏在這一切中的哪裡。為了澄清這一點,讓我們從一個簡單的資料產品的角度來看同一張圖:

如何構建物聯網資料精煉廠

在這個解釋中:

  • 資料工程師和資料管理員是資料產品團隊的團隊成員。

  • 分析師和資料科學家是資料產品團隊外部的資料產品消費者。

  • 資料基礎設施角色是平臺團隊的一部分,促進多種資料產品的發展。

  • 同樣,治理和支援團隊也發揮著首要的支援作用。

由於多種原因,實際情況可能比上圖複雜一些:

  • 在實踐中,資料精煉過程通常並不完全是線性的

  • 資料產品是依賴/巢狀的。由資料科學家建立並由機器學習工程師操作的模型的預測本身可能會成為資料產品。

  • 資料分析師、資料科學家和機器學習工程師也可能是更大、更復雜的資料產品團隊的一部分。當資料產品包含機器學習/建模步驟時,而且當一定級別的資料分析(例如使用統計)成為資料產品團隊的必備條件時,就會發生這種情況。

開始嘗試

感覺有點不知所措,不確定從哪裡開始這個過程?積極的一面是,踏上這一旅程比看起來更容易管理。以下是一些入門的提示:

  • 不要將資料產品團隊視為需要僱用的一組人員。更有可能的是,這些人已經是組織的一部分,您可以向他們分配特殊的額外職責。對於較小的組織和資料產品,一個人可能承擔多個角色。

  • 從小事做起,但從現在開始。一個好的起點通常是 1 或 2 個人明確負責資料產品,並得到 IT 組織和精心選擇的工具集的支援。

  • 考慮資料的性質。一些資料質量工具可以幫助您理解和管理特定的資料型別。選擇正確的支援工具通常可以讓技術水平較低的人員更輕鬆地組合多個角色,例如資料工程師和資料管理員角色。

資料作為戰略資產

人們經常談論資料的戰略重要性。然而,如今,許多以感測器資料為運營核心的物聯網和製造公司沒有適當的機制來控制資料。IT 部門的治理舉措常常忽視資料產品和資料質量管理對 OT 和物聯網資料的重要性。

如果我們希望數字化轉型計劃能夠規模化,我們需要從談論物聯網資料作為一種戰略資產轉變為真正將其視為一種戰略資產。

來自 “ ITPUB部落格 ” ,連結:https://blog.itpub.net/70024922/viewspace-3008421/,如需轉載,請註明出處,否則將追究法律責任。

相關文章