智慧城市是使用不同型別的物聯網感測器來收集資料,然後利用這些資料來有效地管理資產和資源的新型城市。人類獲取的資訊 70% 來自於視覺,而城市感知和獲取資訊的方式主要就來自於計算機視覺技術。計算機視覺技術為智慧城市中的公共安全和城市治理、交通、社群、教育、健康醫療、工業網際網路等行業應用和服務體系提供有力的賦能。
據 IDC 的最新預測,2023 年全球智慧城市技術相關投資將達到 1894.6 億美元,中國市場規模將達到 389.2 億美元。中國市場的三大重點投資領域依次為彈效能源管理與基礎設施、資料驅動的公共安全治理以及智慧交通。作為 AI 領域最熱門的研究與應用方向,目前計算機視覺技術在學術研究和產業落地方面都走在人工智慧發展的最前沿。從前幾年的概念普及,到如今在智慧城市領域的落地,計算機視覺技術正在深刻改變著整個社會的資訊資源使用觀念和方式。所以,把計算機視覺技術和智慧城市建設相結合成為當前產學研各界關心的熱點。
在剛剛結束的由中國計算機學會(CCF)主辦的 CNCC 2019 大會中,由澎思科技承辦的“計算機視覺技術賦能智慧城市”論壇成為爆款技術論壇,儘管在大會第三天舉辦,現場仍然十分火爆。本論壇由澎思科技首席科學家、新加坡研究院院長申省梅擔任論壇主席,中科院計算所研究員、IEEE Fellow、IAPR Fellow、CCF 會士陳熙霖擔任共同主席,邀請了西湖大學講席教授李子青,西安電子科技大學教授、博士生導師楊淑媛,阿里巴巴自動駕駛實驗室主任、首席科學家王剛,清華大學自動化系副教授魯繼文,商湯科技副總裁、智慧駕駛業務總經理勞世竑等共同就當前技術和行業熱點話題展開了探討。
圖 | 西湖大學講席教授李子青發表《人臉識別挑戰問題和解決技術》演講報告(來源:CNCC)
西湖大學講席教授李子青以《人臉識別挑戰問題和解決技術》為題,討論了人臉識別尚未能很好解決的關鍵問題並提出解決方向。
李子青是 IEEE Fellow,曾任微軟亞洲研究院 Research Lead,中科院自動化所模式識別國家重點實驗室資深研究員。作為人臉識別和智慧影片監控專家,主持了多個國家科學研究專案和重大應用工程專案,在相關領域獲准和申請專利 20 餘項。比爾·蓋茨接受 CNN 採訪時,曾為他在微軟研發的人臉識別系統 EyeCU 做講解。
他認為目前的人臉識別有三個問題和挑戰:多數量多類別的模式識別問題;刷臉被破解問題;光照問題。
他認為解決第一個問題,用以前的歐氏距離的話基本是不可分的,需要用 Angular similarity 按角度來分,這是一個趨勢。這種方式有三個特點:angle loss、margin 和 imbalanced data。解決第二個問題,以前區分物件是皮膚、肉體還是一個假體會提取紋理、三維的形狀這種特徵,但這種方式很難將矽膠區分開來。現在基本都採用深度學習的方法,用到可見光、近紅外和三維感測器三個模態。解決第三個問題,他認為還是需要用主動光源而不是演算法來解決。他們團隊提出的 CCA 方法可以把可見光影像和近紅外影像提取一個共同特徵,在 CCA 的空間來進行,然後用各種各樣的區域性特徵進行處理和濾波,提取一些共同特徵。
圖 | 西安電子科技大學教授楊淑媛發表《基於深度學習的複雜場景解譯》演講報告(來源:CNCC)
西安電子科技大學教授楊淑媛帶來了《基於深度學習的複雜場景解譯》的演講報告,圍繞深度學習技術分享了其團隊在場景解譯與目標識別方面的研究進展。
楊淑媛同時也是西安電子科技大學博士生導師,是國家 111 基地成員、IEEE 和中國電子學會高階會員,主持參與了國家自然科學基金、863 計劃等多項科研專案,主要研究方向是智慧訊號處理與影像處理、機器學習和壓縮取樣。她所在的西安電子科技大學智慧感知與影像理解的教育部重點實驗室,前身是 2007 年成立的我國第一個神經網路的研究中心,研究領域主要面向國防安全和民生健康。
基於深度學習的方法,她所在的團隊做了幾部分內容:一個是關於認知建模方面,他們的研究思路是建模人類認知的某部分一些特性,綜合對這些深度結構宏觀的模擬,設計具有一些認知特點的一些新型的神經元,去構造出來新型的神經網路模型。透過認知特性的建模,來提升對複雜資料的表彰處理和資訊提取的能力。
就此,該團隊構建了一個張量深度濾波網路模型,用這種模型去限制網路的輸出,作為網路輸出的特徵,去做一些分類任務,發現我們的模型裡面用非常少的特徵,就能完成較大類別,十幾類目標的一個比較準確的分類。另外,他們在稀疏性建模、認知過程的協同性建模都做了一些工作。同時,在深度學習中的資料、演算法和計算等問題,楊淑媛也分享了一些看法。
圖 | 阿里巴巴自動駕駛實驗室主任王剛發表《自動駕駛沒有免費的午餐》演講報告(來源:CNCC)
阿里巴巴自動駕駛實驗室主任王剛帶來了以《自動駕駛沒有免費的午餐》為題的演講報告,討論了將自動駕駛分解為簡單問題的方法,並介紹阿里巴巴自動駕駛實驗室的平臺解決此類問題的思路。
王剛同時也是阿里巴巴自動駕駛實驗室的首席科學家。在此之前,王剛為新加坡南洋理工大學終身教授。於 2016 和 2017 年,分別入選美國《麻省理工科技評論》評選的亞洲區和全球的 TR35 獎。國家千人計劃專家,人工智慧頂尖期刊 IEEE TPAMI 的編委,頂尖會議如 CVPR 和 ICCV 等的領域主席。
王剛認為,物流車的無人化是整個物流產業發展的必然選擇,也是這個社會發展的必然選擇。在物流行業上,阿里巴巴自動駕駛專注於兩個場景:末端的物流場景和公開道路的技術研發。面對交通場景複雜化、多樣化的難題,他提到了人工智慧裡面非常經典的 no free lunch 理論,提出要針對自動駕駛中每一個問題進行相對應的研發和針對化的最佳化,包括從分類到感知,再到決策。他認為,未來自動駕駛的研發需要依賴精細化場景、演算法、自動化平臺和雲平臺這三個要素。
圖 | 清華大學自動化系副教授魯繼文發表《深度強化學習與視覺內容理解》演講報告(來源:CNCC)
清華大學自動化系副教授魯繼文以《深度強化學習與視覺內容理解》為題,分享了清華大學自動化系智慧視覺實驗室近年來提出的面向視覺內容理解的多個深度強化學習方法,主要包括多智慧體深度強化學習、圖深度強化學習和結構化深度強化學習等,以及它們在物體檢測與識別、目標跟蹤與檢索、行為預測與識別等多個視覺內容理解任務中的應用。
魯繼文主要研究領域為計算機視覺、機器學習、智慧機器人。發表 IEEE 彙刊論文 70 餘篇,CVPR/ICCV/ECCV 論文 50 餘篇。主持承擔國家自然科學基金聯合重點基金、國家重點研發計劃課題等科研專案 10 餘項。2015 年入選中組部青年千人計劃,2018 年獲得國家優秀青年基金專案。
他介紹,清華大學自動化系智慧視覺實驗室主要圍繞深度強化學習、深度度量學習和非監督深度學習三塊內容。
他認為,深度強化學習用在計算機視覺中主要是做兩件事:看的清和看的懂。他所在的實驗室用深度強化學習主要解決了三個方面的問題:策略學習、離散最佳化問題、無監督和弱監督的學習。他認為深度強化學習可以同時利用深度學習的表示能力和強化學習的決策能力,對視覺內容做更好的建模策略並提升任務的效能,未來他們將致力於把認知功能跟模型進行結合。
圖 | 商湯科技副總裁勞世竑發表《中日計算機視覺技術:從人臉識別到自動駕駛的產業化歷程》演講報告(來源:CNCC)
商湯科技副總裁勞世竑帶來了《中日計算機視覺技術:從人臉識別到自動駕駛的產業化歷程》的演講報告,分享了 20 餘年中日兩國的技術交流合作經驗,人臉檢測及人臉識別的產業應用及計算機視覺在自動駕駛領域的應用。他的演講主要講了兩個階段:第一個階段我們是怎麼樣把美國的技術拿來用上,第二個 jie'duan 中國的技術是怎麼來超越美國的技術。
勞世竑同時是商湯科技智慧駕駛業務總經理、商湯日本總經理,負責商湯科技的自動駕駛業務以及商湯科技在日本的業務。他是前日本歐姆龍公司的人臉技術負責人。在歐姆龍工作期間,他領導團隊和清華大學合作開發出了以“OKAO Vision”著稱的世界上第一塊商用人臉檢測晶片、開發了嵌入式人臉識別技術和世界第一款駕駛員狀態識別晶片及系統(DMS)。2009 年榮獲日本影像處理領域中最權威的 SSII“高木獎”。
圖 | 澎思科技首席科學家申省梅發表《影片影像智慧化助力智慧安防建設》演講報告(來源:CNCC)
澎思科技首席科學家申省梅圍繞《影片影像智慧化助力智慧安防建設》,以澎思科技的解決方案為例,闡述了影片影像智慧化在智慧安防領域的應用。
申省梅是澎思科技首席科學家、新加坡研究院院長,也是前新加坡(松下)研究院副院長,她曾領導超過 40 人的演算法研究團隊在基於深度學習的人臉檢測和識別、行人檢測和跟蹤、行人再識別、車輛識別、自動駕駛、駕駛員行為檢測、移動操作機器人等領域均取得了世界頂級成果。2019 年 3 月,申省梅宣佈加入國內人工智慧公司澎思科技,致力於監控與安全、智慧城市、自動駕駛、智慧機器人以及 AI 工廠自動化等領域的相關技術研究。
她認為影片影像智慧化需要提高影像質量、目標檢測分類和識別、影片結構化、智慧壓縮。澎思科技最新的成果“深度超解析度技術”利用深度學習的超解析度方法可實現人臉識別從 0.75 提高到 0.97。澎思科技最近在做的是 ReID,解決了資料採集和資料長尾問題,實現動態捕捉下模糊情況的處理。智慧壓縮和影片摘要方面,澎思科技使用 Acation Q5 的方式來做到關鍵內容的保留、壓縮和摘要,根據不同的情況可以達到 10 倍、100 倍、甚至 1000 倍的壓縮。最後她重申,要做好影片影像的智慧化就一定要把它結構化。
深度學習是近年來人工智慧技術發展的核心,雖然取得了巨大成功,但它具有明顯的侷限性。與人類視覺系統相比,深度學習在通用性、靈活性和適應性上要差很多,而在遇到複雜的自然影像時,深度學習可能還會遇到機制性困難。
隨著研究人員開始處理越來越複雜的視覺任務,他們所面臨的最嚴峻的挑戰是如何開發能夠處理組合性爆炸的演算法。當然,深度網路會是解決方案的一部分,但同時依然需要組合原則和因果模型的互補方法來捕捉資料的基本結構。