第二篇:智慧電網(Smart Grid)中的資料工程與大資料案例分析

穆晨發表於2016-06-12

前言

        上篇文章中講到,在智慧電網的控制與管理側中,資料的分析和挖掘、視覺化等工作屬於核心環節。除此之外,二次側中需要對資料進行採集,資料共享平臺的搭建顯然也涉及到資料的管理。那麼在智慧電網領域中,資料工程到底是如何實施的呢?

        本文將以IBM的Itelligent Utility Network產品為例闡述智慧電網中的資料工程,它是IBM聲稱傳統電網向智慧電網轉變的整體方案(看過上篇文章的童鞋想必會清楚這樣的說法是片面狹隘的,它只能算是智慧電網中的資料工程)。

        另一方面,如今是一個資料爆炸的時代,電力領域也不例外。隨著大量高階感測器、智慧量測系統投入使用,大量的裝置狀態資料、使用者用電資料、電網運營資料等被彙集到電網資料中心,這就需要先進大資料技術對這些海量資料進行實時分析,並實時挖掘出其潛在價值。

        所幸目前已有不少大資料技術成功應用到電網,促進了電網的智慧化發展。本文也將重點分析兩個經典大資料應用案例,讓讀者品味電網領域中大資料的味道

智慧電網中的資料工程 - Intelligent Utility Network@IBM

        Itelligent Utility Network是IBM公司提出的一個很不錯的智慧電網資料工程方案,筆者認為IBM作為全球商用軟體巨頭,提出的這套方案質量還是比較高的,起碼看起來像那麼回事。當然這款產品也只是IBM在智慧電網領域的初期嘗試,隨著智慧電網的迅速發展,IBM必然會推出更新更強大的資料產品。另外SAP、Oracle、華為、阿里等公司想必也不會放過這塊蛋糕,加入進來也應該是遲早的事情。

        接下來是該款產品的定義:Itelligent Utility Network首先利用感測器對發電、輸電、配電、供電等關鍵裝置的執行狀況進行監控,其次將獲得的資料通過網路系統進行收集、整合,最後通過對資料的分析、挖掘,達到對整個電力系統的優化管理。顯然在IBM的眼裡,智慧電網的資料工程就是各種資訊收集基礎設施(如感測器)+中央資料分析運營平臺,以實現對電力客戶、電力資產、電力運營的持續監視,進而提高電網公司的管理、工作水平。

        IBM認為智慧電網資料工程主要分成以下五大組成部分:

        1. 資料採集

        IBM認為智慧電網中的資料相比傳統電網來源要更加廣泛,它主要分為三個部分:

        其中,電網執行資料可用於電網排程中心制定輸電配電策略;裝置狀態資料可用於開展裝置狀態檢修和狀態評估;客戶計量資料能加強電網公司對使用者用電行為的檢測,強化需求側管理。管理好這些資料,就能實時掌握電網的執行狀態,及時地制定電力排程、裝置維修等策略。

        2. 資料傳輸

        在資料採集方面,IBM認為智慧電網中資料量大、採集點多且分散,且實時性要求較高。針對這種情況,應當摒棄現有基於SCADA的採集方式,改用基於IP的實時資料傳輸方式進行傳輸。PS.筆者前段時間去參加亞洲智慧電網展的時候,看過不少公司專門負責做電網中的資料通訊,不知這個模組IBM是不是找其他公司來做的。

        3. 資料整合

        這個應該算是IBM的老本行了,他們在世界各地都有開設些講座、研討會,有空可以去聽一聽了解下。在傳統資料整合這一塊,IBM做的是真的不錯。筆者過去在A公司工作的時候,主管就是來自IBM的,他對資料的思考非常獨到,非常犀利。

        不扯遠了......針對電網中的資料整合,IBM提出了建立企業資訊匯流排(ESB)以實現企業的資料整合:將各業務系統的資料整合到統一資料倉儲裡,底層建模遵照CIM標準

        4. 分析優化

        分析優化環節顯然是最核心的環節,IBM提出將智慧電網的優化分為四個層次,建立了分析層次結構,從而指導使用者對電力資料進行深層次利用。該部分涉及到很多電力系統的具體業務細節,本文篇幅所限不對此進行深入研究。但對於電網公司的資料工作人員,筆者認為應該掌握、精通類似工具

        5. 資料展現

        資料展現是智慧電網面向使用者或者電網工作人員的介面,使用者/工作人員可根據自身需求配置需要展示的各種資訊及視覺化方式。

智慧電網中的大資料技術體系

        1. 工程框架

        不論是電力領域的大資料,還是諸如運營商、電商等領域的大資料,其基本架構都大抵相同:

        最底層的業務系統層包含電網中各種不同型別的資料來源;資料倉儲層用於實現ETL以及相應的資料質量保障工作,並對電力資料進行各種建模以滿足多種分析統計的需要;資料引擎層包含從上層應用系統中提煉出的一些資料開發工作,常見的有資料分析引擎、資料探勘引擎、資料視覺化引擎、推薦引擎等等;應用系統層則是面向使用者的系統,以網站或APP、專業客戶端等形式向使用者提供資料服務。

        2. 關鍵技術

        主要包含傳統的資料管理領域技術,以及當今比較火熱的Hadoop/Spark生態圈提供的各種分散式資料分析、資料探勘、推薦系統等工具。其中前者相關技術通常來說比較專有化,大都由類似IBM這樣的商用軟體公司負責,並不具備太多理論研究價值;後者則是這幾年大資料領域興起的產物,一般我們所說的電力大資料,都是和這些技術息息相關。有興趣的讀者可關注Hadoop、Spark生態圈,某種程度上來說,電力大資料就是這些技術在電力行業的應用:

        非常有趣的是,上述這兩類關鍵技術所代表的公司近幾年開始有了"融合"的趨勢。IBM等傳統資料領域巨頭開始擁抱Hadoop、Spark等開源工具,而一些大資料領域的巨頭公司,如阿里雲,也開始注重其大資料平臺上的後設資料管理,主資料管理,資料生命週期等傳統資料管理話題。相信不久以後就能看到他們碰撞的火花~(~o ̄▽ ̄)~o

智慧電網中的大資料案例:大電網中的居民用電負荷預測

        對居民用電負荷做預測是電網公司的經典需求,它能為電網排程中心提供決策支援,能指導發電廠給出指導意見,還有助於電力系統提升安全性和穩定性:比如"重點關照"負荷較大區域的輸電裝置和線路。這個需求也是現在大資料在電力行業應用得較為成功的一個案例,目前應該有很多乙方公司來做了,但具體的效果如何筆者還不是特別清楚,歡迎同行來和我交流探討。

        該系統的總體思路是對每個使用者進行獨立預測,最後累加得到各區域或者電網總用電量,總體步驟如下圖:

        1. 負荷曲線聚類分析

        使用聚類技術將各使用者用電規律相近的負荷日期歸為一類。聚類的特徵可設定為和用電有關的所有因素;聚類結束後,應使用視覺化的方式觀察不同簇內的負荷曲線是不是長得比較像,不是的話請調整簇個數。

        PS.系統的研究物件是日負荷曲線而不是使用者,這點請讀者不要搞混。

        2. 確立關鍵影響因素

        採用關聯分析(如灰色關聯度)的方法確定對負荷影響最大的幾個因素。一般來說,氣溫、風速、雨量等是對負荷的影響比較大。如何提取關鍵特徵是資料探勘領域一個比較熱門的話題,R語言、Ptyhon、Mahout、MLLib都應該有封裝好的實現,讀者也可前往有關技術交流群和同行進一步交流探討,本文點到為止。

        3. 建立分類訓練集

        這一步工作將基於1和2的結果產出後面用於預測負荷曲線所屬分類的訓練集。新的訓練集的特徵是2中選中的關鍵特徵,標籤則是1中日期負荷曲線的聚類結果。

        4. 將待預測日分類

        提取待遇側日的關鍵特徵,以3中構建的新訓練集為基礎進行分類,判斷出當前負荷曲線所屬類別。好吧,讀者有沒有發現1-4的過程其實就是一個【無監督線上分類學習】過程。

        5. 訓練預測模型並預測

        選擇訓練集中待預測日所屬分類(4中計算得出)的子集為新訓練集,對待預測日的負荷進行迴歸預測。可考慮採用線性迴歸、SVR、GBDT等迴歸演算法,而特徵依然選定為2中提取出的關鍵特徵。

        6. 計算電網負荷

        利用Hadoop/Spark大資料平臺對所有使用者進行預測,並累加得到電網系統的負荷情況。至此,該系統就能預測出未來電網各區域,總區域的總用電負荷。

智慧電網中的大資料案例:基於海量紅外影象分析的電氣裝置故障檢測

        近些年來,越來越多的智慧變電站採用智慧機器人、無人機進行巡檢。這些巡檢裝置通過高清攝像頭、紅外攝像頭等捕獲輸變電裝置的可見光、紅外等裝置檢測影象。通過對裝置紅外成像的分析,我們能獲知裝置各區域的溫度情況,進而對裝置故障進行分析。

        用較為專業的話來說,該系統是"利用非接觸式的紅外熱成像儀實現電器裝置的線上監測,獲得實時的紅外影象,並提取電氣裝置典型溫度資料,在此基礎上建立電氣裝置溫度的歷史和實時資料庫,再結合資料探勘技術,最終建立電氣裝置故障診斷與報警自動決策系統"。聽起來很流弊(☆゚∀゚)。

        其實該系統的總體架構並不算很複雜,如下圖所示:

        1. 將海量紅外影象存放到HBase資料庫裡。HBase是分散式的NoSQL資料庫,是Hadoop生態圈裡的標杆專案之一,有關它以及NoSQL資料庫介紹請讀者自行查閱有關資料。

        2. 採用MapReduce的方式訪問該資料庫,以資料並行化的方式對各個影象進行預處理。這一步將矩陣格式的影象轉換為指定規則的向量,並對採用人工方式對其中一部分抽樣影象打上標籤(正常/故障0/故障1...)。

        3. 最後採用神經網路或者SVM等演算法對格式化後(未被標記)的紅外影象進行故障分類預測。相比於2,這一步的並行可以稱之為任務、或者計算並行。

小結

        隨著科技的不斷進步,各種各樣的資料(感測器資料、裝置資料、用電資料、資產資料......)都將更快更準地彙總到電網的資料中心,構建電網新一代資料工程越來越迫切。說得通俗些,我們將散佈在南方五省區域的所有資料彙集起來,形成資產化的管理,直觀地視覺化分析,對大電網的一切瞭若指掌,這不是一件很有意義的事情嗎

        另一方面,大資料在電力行業的發展很有潛力。據筆者瞭解,除本文講到的兩個案例,目前電力大資料的應用還有不少,如配電網低電壓預測、線損計算分析、乃至電力資產系統、語音投訴系統等。但由於一些傳統原因,應用的深度遠遠不夠,電網距離"多指標,自趨優"的終極目標也還很遠,同志們仍須努力。

相關文章