百分點大資料技術團隊:應急領域資料治理“N步法”實踐探究

百分點科技發表於2021-07-22

編者按

自2018年應急管理部門設立以來,國家應急管理體系和能力有了極大的提升,但也為原應急各有關部門應急資源和力量的整合帶來了挑戰;同時,隨著物聯網、雲端計算、移動網際網路等技術的成熟,以及智慧移動終端的普及,社會逐漸步入以資料為核心的大資料時代,圍繞資料開展的應急管理體系建設、災害模型研究和戰略調整,成為應急管理模式變革的必然趨勢,應急行業面臨著資料獲取難、資料組織難、資料共享難、資料應用難等資料治理問題。

百分點大資料技術團隊基於在應急行業專案中積累的經驗,總結了一套應急資料治理方法體系。

應急管理是國家治理體系和治理能力的重要組成部分,2018年第十三屆全國人民代表大會第一次會議批准透過國務院機構改革方案,設立中華人民共和國應急管理部,整合國家安全生產監督管理總局,國務院辦公廳的應急管理,公安部的消防管理,國土資源部的地質災害防治、國家森林防火指揮部等職責,將突發事件應對工作作為重要職能予以全面加強,納入經濟社會發展規劃;2019年習近平總書記在中央政治局第十九次集體學習時強調充分發揮我國應急管理體系特色和優勢,積極推進我國應急管理體系和能力現代化。

但當前,圍繞資料開展的應急管理體系建設存在著諸多挑戰:

應急管理領域海量資料採集匯聚難

安委辦成員單位應急相關業務系統眾多,資料傳輸格式不統一,導致資料匯聚難,進而使得各個單維度資料獨立,無法發揮資料融合作用。

缺乏各業務系統多維資料的關聯

缺乏多維資料關聯,單維即獨立的“線條”,獨立的資訊“管道”,無法形成“網”,即缺乏圍繞應急管理領域資訊要素關聯關係的挖掘。

缺少應急管理智慧應用的資料支撐服務

缺少應急管理智慧應用,目前僅僅是各個業務應用系統的安全管理服務應用,當前的資料服務無法實現支撐各個安委辦成員單位的應急管理領域智慧應用。

缺乏資料共享服務,業務難以聯動

各部門之間存在資訊孤島,各自建立的系統之間資料相互獨立,由於無法相互共享,導致資料利用率低下,難以做到資料價值最大化。

資料建設多樣,無統一建設標準

所需接入的系統繁雜,系統產生的資料存在交叉情況,由於缺乏統一的建設標準,各系統產生的資料欄位、命名規則等存在差異。

因此,應急行業資料治理工作尤為重要。遵照應急管理部《應急管理資訊化2019年第一批地方建設任務書》、《資料治理系統地方建設任務書》,與國務院安委會辦公室、國家減災委辦公室聯合下發的《關於加強應急基礎資訊管理的通知》檔案指示,應急行業的資料治理工作在統一資訊資源規劃下,利用資料接入、資料處理、資料管控、資料服務、資料共享交換等技術,實現應急管理部門內部、外部共享交換的應急資料資源的匯聚、治理,形成統一的資料資源池,對內部業務系統和外部共享交換提供統一的資料目錄服務,是加強應急基礎資訊管理,推進資訊共享共用,深化應急基礎資訊的分析應用,提升應急智慧預測預警和輔助決策水平的基礎工作。

一、應急資料治理流程概述

依據應急管理部下發的資料治理建設任務要求,按照數用分離、智慧驅動的思路,百分點依託大資料全棧技術和產品,構建符合應急管理業務的大資料治理體系,實現資料接入、處理、儲存、應用等全生命週期的管理。在資訊資源規劃下,構建統一應急大資料資源中心,實現統一的資料標準、資料接入、資料服務及深度的資料應用和全面的資料安全,提供資料共享交換、資料應用等服務,為風險管控動態化、監測預警智慧化等應急管理的各項業務,提供強有力的資料支撐。

百分點大資料技術團隊:應急領域資料治理“N步法”實踐探究

圖1. 應急管理資料治理流程框架

資料接入

資料接入是指根據業務需求,在接入準備階段定義資料獲取、處理、治理、組織、服務各環節的流程、方法和流轉機制,並根據資料探查和定義將多源異構資料接入大資料資源池,完成與資料提供方的資料對賬。

資料接入主要包括資料探查、資料定義、資料讀取和資料對賬等功能。

資料處理

應急行業資料處理是指按照資料接入環節的資料定義,結合應急行業防汛抗旱等特殊欄位資料處理規範,針對規模巨大、型別多樣、高速流轉、複雜多變、質量參差不齊、價值密度高低不一的大資料特性,以資料應用為導向,透過規範化處理,提升資料價值密度,為自然災害、安全生產和城市安全等領域支撐的多場景智慧應用實現資料增值、資料準備、資料抽象,為應急管理事前、事發、事中和事後四個階段,提供科學決策支援。

資料處理主要包括資料提取、資料清洗、資料關聯、資料比對、資料標識和資料分發等功能,按不同階段的資料處理要求,將資料原始備份、標準化處理、整合加工、結合業務應用的資料分別儲存於原始庫、資源庫、主題庫、專題庫四大庫,為資料組織和資料服務提供支撐。

資料管控

應急行業資料管控透過應急相關資料標準、後設資料管理、資料質量管理、統一應急資料資源目錄規劃等功能,實現應急資料資產管理和對資料全生命週期的統一管控。

資料質量管理是指透過建立資料質量評估標準和管理規範,及時發現、定位、監測、跟蹤、解決各類資料質量問題,形成資料質量問題的閉環處理,以保證資料質量的穩定可靠。

資料運維管理是指透過釆集資料接入、處理、組織和服務等各項任務的狀態資訊,對異常狀態進行預警和處置,實現對各任務的實時監控和管理。

資料共享交換

應急行業資料共享交換透過匯聚應急行業資料,打通各單位的資訊阻礙,嚮應急管理部門內部組織以及外部安委辦成員單位等提供資料資源共享與交換服務。

資料共享交換主要包括資料匯聚分發、資料傳輸交換等功能。

資料應用

應急行業資料應用是根據應急業務需求,在對資料進行相應的接入、處理、治理、組織之後,為自然災害、安全生產和城市安全等領域支撐多場景智慧應用,為應急管理事前、事發、事中和事後四個階段,提供科學決策支援,為應急管理內部自建系統與政務相關單位建設業務系統資料包送提供資料對接服務。

如服務提供方將服務介面釋出到應急管理資訊資源平臺,應急管理資訊資源平臺完成服務介面的稽核封裝,並統一受理資源需求方提出的服務介面申請,經稽核、授權後,對資源需求方提供統一的介面服務,透過資料介面對上層應用提供監督管理、監測預警、指揮救援、決策支援、政務管理五大業務域業務系統提供統一、高效的資料服務支撐。

二、應急資料治理核心步驟

1. 資料標準

1.1 資料標準概述

隨著機構的整合和職能的調整,原有各部門分散的標準規範已然不能滿足新成立的應急管理資訊化工作需要,系統性建設應急管理資訊化標準規範體系,聚焦標準體系邊界擴充套件以及新技術標準的發展和納入,在綜合考慮應急管理部門建設需求,參考各轉隸單位原有的標準化的基礎上,建立統一、完整的應急管理網路資訊體系標準體系。

百分點大資料技術團隊:應急領域資料治理“N步法”實踐探究

圖2. 應急管理資料治理技術規範體系

應急管理資料治理技術規範體系共分為 9 部分:

總體:總體技術要求;

資料接入:資料接入技術要求;

資料處理:資料處理技術要求;

資料管控:分級分類技術要求、資料質量管理技術要求、資料資源目錄技術要求、應用資源目錄技術要求、後設資料管理技術要求;

資料資源池:原始庫技術要求、資源庫技術要求、主題庫技術要求;

資料服務:查詢檢索服務技術要求、比對訂閱服務技術要求、資料匯聚服務技術要求、資料推送服務技術要求、後設資料訪問服務技術要求;

資料匯流排:服務匯流排技術要求;

資料運維:資料運維技術要求;

資料管理:資料元規範、限定詞規範、應急程式碼集、應急資料元、資料集規範。

依據應急管理資料治理技術規範體系及參考應急行業與地方標準形成資料標準產出物:資料元標準、程式碼集標準、資源目錄標準、資料介面標準、資料治理技術標準等。

1.2 資料標準產出物

資料標準產出物

資料元標準從資料型別、資料格式、資料值域範圍、資料維度值範圍多方面制定規範。內容涵蓋安全生產、自然災害、指揮救援、城市安全等幾部分核心業務流程資料。遵循國家或行業制定的資料元標準,超出標準範圍,根據實際行業或業務自行制定。內容採用摘要表示的方式定義和描述,包括:內部識別符號、中文名稱、英文名稱、中文全拼、識別符號、資料型別、表示格式、值域、說明、約束、版本、取值示例等來描述。

以安全生產中的企業基本資訊為例,企業資料包括基本資訊、業務資訊、通訊資訊等內容,企業名稱、統一社會信用程式碼等資料元情況如下表所示。

表1. 企業名稱資料元

百分點大資料技術團隊:應急領域資料治理“N步法”實踐探究

程式碼集標準

程式碼表示特定事物(或概念)的一個或一組字元,若干個同類的程式碼為一個方面的內容而服務組成在一起形成程式碼表。程式碼集則是將一種程式碼應用於程式碼集中的所有元素所產生的結果。在應急管理資料元的值域中會引用程式碼集作為資料的取值範圍。

以性別程式碼表為例,對應的資料元包括性別、性別程式碼,說明內容為人的性別程式碼,表示形式為1 位數字碼,編碼規則採用GB/T 2261-1980中的編碼,性別程式碼如下表所示。

表2. 性別程式碼表

百分點大資料技術團隊:應急領域資料治理“N步法”實踐探究

資訊資源目錄標準

資訊資源目錄標準是按照統一的應急管理資料資源目錄標準規範,在標準的制定過程中,對大資料平臺儲存的應急資料資源和透過介面方式提供大資料平臺使用的資料資源進行梳理,並賦予唯一的目錄識別符號和編碼,實現對所有的應急資料資源進行統一管理。

應急資源目錄清單內容包括資料類別、資訊資源編碼、資訊資源名稱、共享型別等,其中資訊資源編碼由行政區劃程式碼、應急管理資訊分類程式碼和順序碼組成,按照資源目錄編碼規則編制。透過應急目錄清單可瞭解目前資源的分類、共享等情況。

資料清單中的每一個資源都是一個資料資源,資料資源資訊資料項包括資料資源目錄編號、資料資源識別符號、資料資源管理單位、資料資源名稱、主題資訊分類、業務領域分類、資料資源更新週期、資料資源更新方式、更新時間、資料資源共享型別等。

資料項是資料資源的後設資料資訊,包括資料項編碼、資料項識別符號、英文名稱、中文名稱、說明描述、資料項型別、資料項長度、是否必填等、共享內容、管理方式、更新週期、資訊資源摘要、行業領域分類、資訊要素分類、行為主題分類等。透過資源目錄標準賦予唯一的目錄識別符號和編碼,使得資源目錄便於管理維護。

百分點大資料技術團隊:應急領域資料治理“N步法”實踐探究

圖3. 資訊資源目錄關係

資料介面標準

為了實現應急資料共享,提升資料價值,其他下屬機構業務系統需要呼叫大資料資源池中的資料。資料透過服務介面方式實現應急管理內部以及與外部的資料傳輸交換。可提供結構化資料(各類資料庫資料)、半結構化資料(位置資料、日誌資料等)、非結構化資料(影片資料、音訊資料、圖片資料)儲存傳輸能力。

在應急管理資料共享與交換中,為了保證資料提供方和資料接收方之間高效、準確地交換資料,因此介面規範的編制應符合如下原則:

資料介面應具備完整性、規範性、開放性和靈活性;

介面定義遵循易理解、易使用、易交流、方便擴充套件的原則;

保證資料提供方和資料接收方的資料一致性;

在滿足業務需求的前提下,使介面資料量最少,最大限度地減輕資料接收方的壓力;

具有可靠完善的介面資料傳輸與錯誤糾正機制,保證資料的正確性和完整性。

請求報文:介面請求引數在請求行URL中透過key-value的鍵值對形式進行引數傳遞,或在請求體中透過JSON格式進行引數傳遞。

響應報文:響應引數在響應報文體中,支援JSON、XML格式。

以企業基本資訊表為例,下表為企業基本資訊的介面標準,包括介面說明、介面資源歸屬、介面名稱、支援格式、請求方式、請求引數、響應引數等內容。

表3. 企業基本資訊表介面資訊

百分點大資料技術團隊:應急領域資料治理“N步法”實踐探究

實施技術標準

實施技術標準依據應急管理資料治理技術規範體系進行構建及補充,包括資料治理全生命週期流程,覆蓋資料接入、資料處理、資料管控到資料服務、資料共享交換的標準體系。具體標準內容為:資料接入標準、資料匯聚分發標準、資料處理標準、資料分級分類標準、資料質量標準、資料運維標準、資料服務標準、資料交換技術標準、資料傳輸格式標準、資料庫命標準、資料項標準、資料標籤管理標準等。以下為部分標準內容簡述:

資料接入標準:針對應急資料“多源異構”的特性,針對對結構化、非結構化資料進行接入,主要技術方法有數資料讀取、資料對賬等操作。

資料分發標準:根據不同應用場景,按照資料定義的分發策略,將處理過程產生的關聯、關係、標籤等資訊,以及資料本身資訊,進行同步或非同步的相關處理,並將結果資料對應分發到原始庫、資源庫、主題庫、專題庫。例如,資料分發將資料資源根據需要從市局下發到各區局。

資料處理標準:按照資料接入環節的資料定義,針對規模巨大、型別多樣、高速流轉、複雜多變、質量參差不齊、價值密度高低不一的大資料特性,以資料應用為導向,透過規範化處理,提升資料價值密度,為資料智慧應用實現資料增值、資料準備、資料抽象。主要技術有資料探查、資料定義、資料提取、資料清洗、資料關聯、資料標識、資料比對等

資料分級分類標準:按照應急管理涉及的行業對應急管理資料進行分類,包括應急救援、安全生產、災害防治、綜合管理和其他行業管理共5個行業領域分類。

資料項標準:資料項是指資料元素可由若干個資料項組成,資料項是資料的不可分割的最小單位。資料項的名稱有編號、別名、簡述、資料項的長度、型別、資料項的取值範圍。資料項是資料記錄中最基本的、不可分的有名資料單位,是具有獨立含義的最小標識單位。 

2. 資料匯聚

為解決應急管理資訊資源在集中匯聚時面臨的分散孤立、源頭多樣、跨網傳輸等問題,需要構建應急大資料資源池對應急相關的業務資料進行匯聚治理,為實現資料互聯互通打下基礎。

應急行業資料匯聚主要實現應急管理廳/局內部資料、外部委辦廳/局資料、社會及網際網路資料、感知資料等全域應急資料的接入。涵蓋監督管理、風險監測、指揮救援、政務管理等全業務域。透過統一接入,將源資料集中儲存至原始庫。利用資料抽取、訊息服務、網路爬取、資料交換、填報採集等技術手段,來解決應急資料孤島問題。

2.1 應急內部資料匯聚

應急內部業務系統主要以安全生產業務為核心,結合自然災害與城市生命線等業務,圍繞監督管理、監測預警、指揮救援、決策支援、政務管理五大業務域建設的各類業務系統。

表4. 應急內部業務系統

百分點大資料技術團隊:應急領域資料治理“N步法”實踐探究

2.2 應急外部資料匯聚

外部委辦局資料主要以應急環境資訊、動態感知、救援資源、管理物件為核心的氣象環境、氣象感知、三防監測、海洋環境、救援資源、交通環境等方面資訊。

表5. 應急業務相關委辦局單位

百分點大資料技術團隊:應急領域資料治理“N步法”實踐探究

3. 資料資源池構建

3.1 原始庫建設

原始庫儲存接入匯聚來自應急管理局內部系統(包括應急管理廳、市應急管理局、區縣應急管理局)、其他安委辦成員單位各個條線業務系統資料,接入方式包括對接應急管理局各業務系統、對接外部業務開放介面、訂閱政數局共享交換平臺資料等。

為了在各個源業務系統和資料資源池之間有一個平滑的過渡,一方面要保障資料資源池的穩定性,各個源業務系統資料變化不會對資料資源池造成影響,又可以減低前置系統資料被抽取的壓力,原始庫在這中間起到了遮蔽變化,平滑過渡和分發的作用。

原始庫更新機制設計

針對原始庫中資料的存量和日增量的不同情況,設計了不同的原始庫資料更新機制。更新機制設計如表所示。

表6. 原始庫更新機制

百分點大資料技術團隊:應急領域資料治理“N步法”實踐探究

原始庫資料生命週期設計

綜合考量原始庫的儲存成本,資料價值,抽取方式等內容,原始庫中資料的生命週期設計如表所示:

表7. 原始庫生命週期

百分點大資料技術團隊:應急領域資料治理“N步法”實踐探究

3.2 資源庫建設

資源庫庫表用於儲存由原始庫資料進行清洗、轉換等標準化後的資料,資源庫相對於原始庫在資料域層面只保留結構化域。

資源庫的表結構設計應該遵循如下原則:

完整性原則:保證輸入源原始庫的資料的完整,資料字典清晰明確。

及時性原則:資料更新的頻率應與源原始庫更新頻率基本一致,保證輸入資訊的及時性。

根據以上原則,資源庫的表結構設計與原始庫的表結構基本保持一致,在粒度上以最細的方式儲存;在資料內容上,儲存對原始庫進行標準化後的標準資料,以及清洗產生的髒資料,便於向源業務部門反饋,促進其提升資料質量,同時減少誤清洗帶來的風險。

資源庫對原始庫進行資料處理,生成治理後的標準規範資料集合,主要分為監督管理資源庫、監測預警資源庫、指揮救援資源庫、決策支援資源庫、政務管理資源庫。

3.3 主題庫建設

主題庫是根據應急業務,圍繞基礎資訊、行政管理、監督管理、監測預警、應急處置等實體構建沉澱的一組資料建模方法和一系列基礎演算法,是為了高度統一的刻畫這些實體的屬性和特徵,從龐大的資源庫中抽取共性的維度進行分析,形成高通用、易擴充套件和易使用的資料模型,形成多要素的全方位的、全時空的實體感知資訊。主題庫設計有以下原則:

低耦合:合理定義基礎屬性、擴充套件屬性,避免屬性定義重複、冗餘出現;

穩定性:保持基礎寬表模型的穩定性,透過屬性表解決擴充套件屬性變化頻繁的問題;

高效性:模型解耦設計兼顧應用靈活組裝和高效資料更新。

主題庫的劃分主要根據模型設計人員的行業經驗以及對現有應急行業業務瞭解來進行的,應急行業的主題庫分為八大主題,分別是:管理物件、災害事故、應急人員、救援資源、日常監管、應急環境、動態感知、空間地理。

百分點大資料技術團隊:應急領域資料治理“N步法”實踐探究

圖4. 主題庫建設框架

3.4 專題庫建設

專題庫設計面向應急管理常態與非常態業務需求,透過將資源庫、主題庫資料進行二次抽取裝載的方法重新組織資料,並按照不同事件專題應用的需求重新整合形成專題庫。

在主題庫之上,還有一層資料集市層,我們稱之為專題庫。專題庫是依據部門專題業務需求,按照維度建模等原則建立起來的,是主要面向部門級業務,並且只面向某個特定的主題。專題庫儲存為特定使用者預先計算好的資料,從而滿足使用者對效能的需求。

安全生產隱患排查專題庫

安全生產隱患排查專題庫以監管安全生產企業為核心,匯聚企業資訊、巡查人員資訊、隱患資訊、重大隱患資訊、網格資訊、企業風險分級等相關資料,實時同步企業自查隱患、政府巡查隱患資料,構建“風險-能力-事件”圖譜。

百分點大資料技術團隊:應急領域資料治理“N步法”實踐探究

圖5. 安全生產隱患排查資料模型

三防監測預警指揮救援

三防監測預警指揮救援專題庫以三防指揮部為核心,匯聚關鍵基礎設施/風情/雨情/潮情/水情等常態化監測資料、災害預警資料/突發事件報送等綜合值班值守資料、輔助決策資料、指揮協同資料、應急資源管理資料等,對臺風、洪澇等災害資訊進行監測、展示和分析,呼叫應急平臺其他業務系統資料進行資料組織及呈現實時動態監測、日常監測資訊、災情資訊分析展示、重點關注目標統計分析、態勢分析與研判、事故輿情應對輔助決策、應急資源推薦、指揮排程等功能。

百分點大資料技術團隊:應急領域資料治理“N步法”實踐探究

圖6. 三防監測預警指揮救援資料模型

4. 資料服務支撐

4.1 資料資源目錄

應急管理資料資源目錄分類參考應急管理部標準並結合實際應急管理資料涉及的行業及其業務範圍作為分類依據。資料資源目錄劃分為資料來源目錄、主題資訊目錄、專題資訊目錄。

資料來源目錄分類按照應急管理領域資訊資源涉及的來源部門進行劃分,包括內部機關單位、下屬單位、其他政府部門、網際網路及社會單位共5個分類。

主題資訊目錄分類結合應急管理部下發標準規範,按照應急管理領域資訊資源涉及的主題資訊進行劃分,包括管理物件、災害事故、應急人員、救援資源、日常監管、應急環境、動態感知、空間地理為8個主題分類。

專題資訊目錄對特定應用或服務需求所構建的目錄,是按資料支撐業務進行分類設計,為業務系統與其他資料需求單位提供支撐服務。內容可包括:安全生產隱患排查專題、安全生產執法專題、三防監測專題、應急指揮專題等內容。

4.2 資料共享交換

透過對應急資料的匯聚形成了統一的資料資源池,資料共享交換在資料資源池的基礎上,梳理資料共享資源目錄,形成應急資料共享體系。縱向上打通從應急管理部、省應急管理廳、市應急管理局、區應急管理局多級間的資料上報、下發,橫向上拉通政務服務資料管理局、各應急相關委辦局單位等單位之間的資料對接、資料考核、資料共享。

百分點大資料技術團隊:應急領域資料治理“N步法”實踐探究

圖7. 資料共享交換關係圖

4.3 資料上報

利用應急管理部資料治理系統(含資料共享交換平臺)與地方、部本級業務系統聯通,匯聚政務服務及監管資料。為滿足政務服務及監管資料共享需求,由資料治理系統結合資料共享交換平臺作為應急管理部體系內基礎設施和資料交換通道的作用,透過配置交換任務等。

各地方、部本級業務系統產生的事項、辦件、電子證照目錄、監管事專案錄清單、行業 監管物件資訊、行業執法人員資訊、監管行為資訊、信用監管資訊、風險預警模型資訊、重點企業資訊和行業知識等政務服務和監管資料,透過應急管理部資料治理系統匯聚到政務服務及監管系統業務庫,資料上報流程如下:

百分點大資料技術團隊:應急領域資料治理“N步法”實踐探究

圖8. 資料上報流程圖資料交換總體框架

三、應急資料治理成效

透過應急領域資料治理的“N步法”,從資料接入、資料處理、資料管控、資料共享服務、資料應用五個環節提升資料治理價值。為安全生產、自然災害、救援指揮、監督執法、綜合決策等智慧應用,提供專常兼備的資料支撐能力,在突發事件的事前、事發、事中、事後階段發揮資料支撐作用。從資料的數量、質量、流通、效率、安全等多方面全流程為應急資料體系建設帶來諸多成效。

摸清資料底數

對應急業務相關資料進行資訊資源規劃,從安全生產、自然災害防治、應急救援、城市安全多個領域進行梳理,匯聚各方資源形成資料資源池,編制應急資料臺賬,做到應急資料的“家底清、底數明”,實現分散、割裂的應急業務資料向資料資產的轉變。並在大資料治理平臺中對資料進行檢視管理。

提升資料質量

建立統一、完整的應急管理資料標準體系,提升應急資料質量,提高資料使用價值。

拉通業務資料

統一匯聚應急基礎資料,透過資料關聯融合,挖掘資料潛在價值,拉通應急資料與上級業務部門(部省)、下級業務部門(區縣)、內部業務系統、外部委辦局單位之間的資料通路,實現資料的上傳下達內聯外接。

實現降本增效

透過資料治理建設的資料平臺統一完成資料上報任務與外部委辦局單位資料對接,降低各業務系統分開開發的對接介面的成本。

保障資料安全

資料入口與資料出口,透過資料治理平臺統一進行資料上報與下級單位資料上傳下行的網路對接,避免對外開通多個網路埠。同時對資料資源進行編目劃分,並且透過嚴格的鑑權體系,控制資料許可權,確保資料安全。



相關文章