簡介:本篇內容為2021雲棲大會-企業級雲原生資料庫最佳實踐論壇中,上海市新能源汽車資料平臺 王成名關於“車聯網全景監控資料時空超融合資料庫方案”的分享。
上海市新能源汽車公共資料採集與監測研究中心技術總監——王成名
本文將通過三個部分來介紹車聯網全景監控資料時空超融合資料庫方案。(基於2021雲棲大會“企業級雲原生資料庫最佳實踐”分論壇演講內容整理而成)
一、資料中心平臺業務簡介
二、平臺技術架構
三、平臺願景與目標
一、資料中心平臺業務簡介
首先,我簡單介紹下我們的組織以及我們所做的業務。我們是做上海市新能源汽車資料中心。我們所做的業務是接入全上海市所有新能源汽車的資料,包含乘用車、商用車、物流、大巴等電動汽車資料的全接入。目前我們平臺接入資料量接近60萬輛車。我們的資料規模已經接近1.5個PB,上圖是我們的監管大資料平臺。
我們資料接入是按照新能源汽車安全監管32960進行資料採集,其中包含38項靜態資料和80多項的動態資料。包括以車輛VIN碼為基礎的整車資料、發動電機、驅動電機、電池以及報警等8大類資料。這些資料是典型的物聯網時序資料。我們需要對這些資料進行儲存分析並應用。
同時,我們是多元的資料架構,我們不但有政府委託的資料採集管理,還有國際合作專案。我們有新能源汽車資料平臺、氫能源車站一體化平臺、電池溯源管理平臺、可再生能源管理平臺以及智慧網聯汽車管理平臺。我們的目標是要努力建設成為世界級汽車產業中心的核心資料中心。
我們基於資料面向政府,為政府政策的制定、執行和後評估提供有效資料支撐,比如新能源汽車推廣報告、政府公共充電樁的選址和部署、節能減排成效評估、安全事故回溯等場景提供資料支撐。我們還面向市場和行業提供增值服務,比如汽車後市場二手車銷售、電池回收以及保險產品的設計等場景提供資料產品服務。我們也面向高校和科研機構提供資料開放的服務,我們希望我們的資料能夠更大程度服務行業。
二、平臺技術架構
整體資料架構,我們基於開源Hadoop體系構建,資料鏈路裡應對不同場景選擇不同的架構。我們的資料是多源異構的,有結構化資料,半結構化資料,物聯網時序資料,檔案資料等。根據不同的資料特性,我們選擇不同的儲存引擎。我們構建了多協議資料採集平臺。我們有基於netty實現的資料閘道器接入,訊息佇列( Kafka ),檔案日誌( flume )和資料介面API。資料儲存有靜態資料(RDS ),快取記憶體( Redis ),熱儲存( Hbase ),溫儲存(HDFS),冷儲存(OSS)等。然後我們提供基於spark引擎的資料分析和場景化應用。
上圖是我們原有的技術架構(基於Hadoop構建的資料倉儲),當前大部分網際網路行業大家都會選用類似架構。很難有統一引擎解決掉資料儲存問題。除此之外,現有技術無法對時序資料進行有效分析。為了有效分析,我們需要把物聯網時序資料轉化成結構資料來實現資料分析,這樣可以簡化分析,且可以滿足我們絕大部分的業務場景。
我們應對不同的場景選擇的這些架構,但這些架構也遇到了很多問題與挑戰。大概有四個方面。第一,技術棧複雜,多元件融合搭配導致技術棧高度複雜,維護成本高。第二,儲存碎片化。資料同步機制實現和維護,資料查詢維護以及資料生命週期管理導致資料高度冗餘。第三,開發門檻高。不同技術棧所用不同開發語言及工具開發門檻高,難以標準化。第四,平臺擴充套件性挑戰。我們在容量規劃,資源利用率,擴縮搬遷都有很多挑戰。
經過多個產品的對比之後,我們最終選用了阿里雲Lindorm平臺。核心資料儲存使用多模資料儲存到Lindorm(結構化、半結構化、時序資料等),資料分析依然使用Lindorm平臺提供的spark模組。阿里雲Lindorm的優勢在於低成本,高可用,彈性靈活,自動資料冷熱分離,並且滿足低延遲。
阿里雲Lindorm平臺系統架構實現了端到端的產品一體化,大幅減少開發與維護成本,提升易用和穩定性。支援HBase的增量資料實時自動歸檔為Parquet格式,並定期合併、清洗,供Spark分析。Spark分析結果以 BulkLoad迴流到HBase。能力產品化封裝,支援通用API呼叫,並具備自動容錯、分散式擴充套件、監控報警、高效能等能力。
三、平臺願景與目標
我們舉一個案例談談汽車資料的價值,我們曾經做過一個場景,我們基於資料做了一個交通事故的還原,我們把車和路網結合匹配,通過資料分析,發現車主在某個時間點,既踩了油門又踩了剎車導致了事故的發生。如果沒有這個資料的分析,很難定責是車輛故障問題、還是使用者駕駛行為問題。類似場景在事故鑑定中經常碰到,資料的價值也得以體現。
另外新能源汽車退役,它具有一定的剩餘價值。但要怎麼去評判新能源汽車的剩餘價值?我們利用汽車的資料可以對使用者駕駛行為和電池效能做分析。所以我們和合作夥伴共同開發一個app,基於我們的資料去對汽車做殘值評估。首先需要作為個人授權你的汽車資料,然後我們可以預測你的車子還可以跑多少公里,電池殘值還有多少,從而服務於汽車後市場,這是一個很典型的應用。
接下來說說我們的願景和目標。我們希望基於大資料應用開放平臺構建一個開放的資料生態。一個基於新能源汽車、智慧網聯汽車資料的資料中臺。我們致力於將有價值的資料以及具有特徵標籤的資料,再加上我們的資料演算法包,都集中在這個平臺之上。我們希望上下游包括政府、研究機構及其相關產業都可以用我們的資料和平臺,互利共贏。
隨著新能源的全面普及,大資料在交通安全、以及節能減排等領域起到很重要的作用。我們希望在交通安全、能源各個層面以共建,共享,共治的方式,和大家共同構建這個平臺,為行業賦能。
版權宣告:本文內容由阿里雲實名註冊使用者自發貢獻,版權歸原作者所有,阿里雲開發者社群不擁有其著作權,亦不承擔相應法律責任。具體規則請檢視《阿里雲開發者社群使用者服務協議》和《阿里雲開發者社群智慧財產權保護指引》。如果您發現本社群中有涉嫌抄襲的內容,填寫侵權投訴表單進行舉報,一經查實,本社群將立刻刪除涉嫌侵權內容。