城市大腦的眼疾與升級:解析高文院士提出的“數字視網膜”體系

naojiti發表於2019-05-08

近幾年來,城市大腦概念可謂如火如荼。

相比於前兩年大家對這一概念比較陌生,如今相信大部分讀者應該都已經知道,所謂城市大腦的基本內涵,是指用公路上的大量攝像頭,來識別車流、車牌和車輛,以及一些路段廣場上機遇攝像頭執行人臉識別和人流判斷。

這些“城市之眼”收集的資料,一方面可以幫助提升城市安防的智慧化水準,比如預判人群擁堵、識別交通事故與可疑車輛等等;另一方面,城市大腦的作用主要體現在和交通燈、高架橋准入閘口的互動上。通過對車輛資料的識別和判斷,進而用城市大腦進行交通指揮,被廣泛相信是治理城市擁堵的有效方式。

這些技術邏輯近兩年被反覆討論,加之科技巨頭的不斷加註與宣傳,很可能讓大眾覺得城市大腦已經非常完善,可以真正承擔一座城市的“AI交通指揮官”。然而事實上並非如此,從一種產業構思到實際落地,城市大腦,或者稱作智慧城市系統,還面臨著非常多物理世界中客觀存在的困難與障礙。尤其是城市攝像頭體系本身,與後加入的AI大腦,二者其實存在著無法忽視的“代溝”。

這個問題應該如何解決,近兩年也有相當多的學術討論。比如中國工程院院士、中國計算機學會理事長,北京大學教授、博導高文提出的“數字視網膜”理念,就廣為產學各界重視。在這一問題中構成了一種代表性的解題方案。

城市大腦的眼疾與升級:解析高文院士提出的“數字視網膜”體系

我們似乎可以從數字視網膜應運而生的現實問題,以及其發展思路中,共同探討這樣兩個問題:城市的智慧,距離我們究竟有多遠?而如果希望拉進這個距離,目前有哪些急需開展的工作?

從這個角度思考,我們或許會發現數字視網膜既是一種學術創新,也是一個新的產業機遇。

“眼疾”未愈,城市大腦依舊幼稚

城市大腦概念,在現實執行中面臨的第一個問題,也可能是最根源的問題之一,就是原本並不用於智慧計算的城市攝像頭,如何與AI帶來的識別,甚至智慧分析能力連線在一起?

這個問題涉及一個基本矛盾,就是智慧發生在哪裡。

今天一般的城市大腦與智慧城市專案,主要是將攝像頭收集來的視訊資料進行儲存,從而在雲端用演算法就行識別和分析。

城市大腦的眼疾與升級:解析高文院士提出的“數字視網膜”體系

而這裡就有很多矛盾滋生了出來,比如傳統攝像頭收集的視訊資料過於龐大,清晰度也欠佳,AI演算法很難識別。

即使攝像頭能夠提供高清資料,但由於拍攝的視訊沒有進行特徵提取,於是從提取到識別、檢索,再到推理的全鏈計算都必須發生在雲端。這帶來的資料量非常龐大,雲端將承受難以負載的資料壓力,從而影響識別精度與資料處理準確度。同時,把基礎視訊資料堆積到雲端,客觀上也會造成過大的延遲,很難滿足交通場景裡實時反應的剛性需求。

同時,城市綜合體每天產生的視訊資料,其本質上堪稱一個“資料包袱”。這些資料存在哪?存多久?誰來看?如何檢索?在海量資料面前,這些問題一一成為了城市資料管理體系的重擔。

那麼如果讓攝像頭自己具備識別能力呢?這是如今智慧城市的主要解決方案,但是由於此前的原版攝像頭不便拆卸,想要加入新的識別能力就要加裝一個新的攝像頭。於是我們看到了拍照攝像頭、人臉識別攝像頭、車牌識別攝像頭、車輛識別攝像頭等等;在路口抬頭一看,簡直能激發密集恐懼症。

城市大腦的眼疾與升級:解析高文院士提出的“數字視網膜”體系

這些“智慧攝像頭”識別出的資料,本質上無法做到匯融與底層打通,而是隻能各自為政。後端的AI也就只能偏聽偏信,無法進行完整的交通場景分析,給出真正的“智慧建議”。

那麼如果讓識別和推理的全套AI能力都發生在攝像頭裡呢?這帶來的最大問題就是端側算力不夠充沛,無法支撐複雜的計算。如果在每個攝像頭都載入大量AI算力和專用硬體模組,那將是一筆無法負擔的成本。而且想要讓AI全域性化理解城市,各攝像頭也必須進行全域性彙總。

這樣左右為難的問題,就是今天城市智慧從理想到現實的差距。高文院士將之總結成“儲存難,檢索難,識別難和功能多樣化”四個問題,並且形象地比喻為城市的“自閉症”和“弱視”。

那麼如何破解城市的種種“眼疾”呢?如果也用仿生學來比喻,那就是今天城市有了雲端計算和AI作為大腦,也有了攝像頭作為眼睛,但是二者之間缺少一樣東西:視網膜。

未來城市,需要一場“數字視網膜”安裝手術

哺乳動物的視網膜,可稱得上一件造物主的奇瑰之作。

視網膜的一個特性,是它隱藏在大腦和雙眼之間,沉默著充當人類智慧與世間萬物的翻譯。我們的視網膜,其實並沒有傳遞給大腦真實的畫面和色彩,而是對這些“資料”進行了優化,讓我們的大腦直接處理可感可理解的視覺資訊。

在高文院士看來,今天城市大腦與萬千攝像頭之間,需要加裝的就是這樣一層“數字視網膜”。

當然,數字視網膜並非真的要做一種仿生視網膜的硬體,而是希望能夠改變目前攝像頭只能看或者單一鏈路識別的功能。讓攝像頭本身擁有一定的AI處理能力,能夠對識別到的車、人、場景進行主動特徵提取。

從而讓攝像頭上傳到雲端的視訊資料,一路通過高效編碼作為資料儲存;另一路經過特徵提取直接作為智慧大腦的“可讀物”。

這樣既把識別和推理等智慧計算保留在了雲端,又讓端側完成了初步的智慧化解析,平衡了兩側的成本與效率關係。而云大腦與攝像頭的智慧結合,就是給城市安裝了一層新的“數字視網膜”。

城市大腦的眼疾與升級:解析高文院士提出的“數字視網膜”體系

這個技術設想,是希望從計算和視訊編碼的可行性上,將城市的“大腦”和無數“眼睛”結合為一體。而設想想要變成現實,需要建立在端側裝置具有優化的視訊編碼能力,以及AI領域高強度的視訊特徵抽取能力。從而創造一個功能整合,能集編碼和特徵編碼為一體的視訊和圖象感知系統。

換言之,軟體層的創新將帶給城市硬體系統更好的成本比值以及更優化的效率。與目前大多數產業方案相比,這套系統的特點在於平衡了理想目標和現實中的可執行性:攝像頭完成特徵抽取,雲端只負責識別和推理。雲端計算和終端各負擔一部分計算任務,合理分配算力。用更優化的視訊解碼技術,以及AI帶來的視訊特徵抽取能力,讓整套體系能夠在有限算力與頻寬條件下執行。

即便如此,給城市做一場“安裝數字視網膜”的手術也並不容易。

挑戰、路徑與產業機遇:數字視網膜的未來棋路

想要在新興的城市大腦技術,與中國技術龐大、種類繁雜的城市攝像頭體系之間做出“智慧融合”。雖然具有強烈的必要性,以及技術可行性,但現實中還是要應對眾多挑戰。

比如說,數字視網膜的創新邏輯在於,用領先的視訊編碼標準與編碼技術,換取硬體門檻的降低。而這就要求在視訊編碼技術和機器視覺技術上達成一系列新的突破,讓數字視網膜真正“以內功贏人”。

更重要的挑戰在於,數字視網膜體系,需要端側攝像頭具備相對通用化的視訊處理能力,尤其是AI相關的視訊特徵提取能力。根據行業目前的普遍理解,這需要建立在專用晶片給攝像頭提供更有針對性的AI算力基礎上。這就需要一個從基礎硬體到演算法層,再到產業層的整體配合。

其次,必須正視的一點,是數字視網膜體系不可能朝夕功成。全國龐大的城市攝像頭技術,必須逐步替換。這需要優先在現實場景中建立更多邊緣技術節點,通過邊緣計算來滿足端側AI算力的需求,逐漸向完全的數字視網膜體系過度。並且,如何針對已經儲存的視訊資料進行重新的特徵抽取與識別也是個問題,這可能需要具備更優能力的視訊編碼軟體來執行。

總而言之,我們可以看到“數字視網膜”這場城市大腦的新升級,將牽動硬體、軟體與產業層的多條線索。而走到現實當中,這為今天的智慧城市、城市大腦等專案提出的第一個挑戰,就是城市大腦類專案整合者、AI演算法公司、智慧攝像頭廠商,包括晶片廠商和雲端計算廠商的通力合作,構築基於數字視網膜目標的新興產業鏈。

城市大腦的眼疾與升級:解析高文院士提出的“數字視網膜”體系

在這個命題中,今天可以看到,計算基礎設施與解決方案供應商、安防硬體廠商、城市大腦專案執行者,比如阿里、騰訊、京東等網際網路巨頭,包括機器視覺相關的AI演算法公司,都將獲得新的產業機遇。

同時,如果我們將數字視網膜規劃的未來城市,看作是智慧城市產業的下一步,那麼這個未來變化同樣將為創業者開啟機遇。因為其必然需要建立新的機器視覺任務開發生態,並且產業鏈粘合過程中,需要大量的新的企業級服務公司。

由此可見,醫治城市大腦的眼疾,也是一場城市智慧產業升級的開始。據瞭解,目前數字視網膜體系已經在多個地區與產業埠中開始了應用。從學術創新到產業突破,“智慧+”時代正在構築越來越多這樣的產業升級軌跡。

讓城市之眼看到未來的同時,身處城市中的我們,也應該看到未來的腳印。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31561483/viewspace-2643651/,如需轉載,請註明出處,否則將追究法律責任。

相關文章