高德地圖首席科學家任小楓QA答疑彙總丨視覺+地圖技術有哪些新玩法?

amap_tech發表於2020-04-29

上週,阿里巴巴高德地圖首席科學家任小楓在#大咖學長雲對話#的線上直播活動上就計算機視覺相關技術發展以及在地圖出行領域的應用與大家做技術交流,直播間互動火爆,尤其在QA環節,學弟學妹們紛紛就感興趣的視覺應用、AR導航、定位技術、5G、職業發展等話題提問,任小楓做了精彩回答。我們整理了問答內容,分享給大家。

影片回放地址

 

任小楓博士,現任阿里巴巴高德地圖首席科學家,研究員,主要負責視覺技術在地圖和出行領域的應用和創新。加入阿里巴巴前,他在2013到2017年間供職於亞馬遜,是亞馬遜的資深主任科學家和AMAZON GO的演算法負責人。浙江大學本科畢業,加州大學伯克利分校博士,華盛頓大學計算機系客座教授,CVPR/ICCV/AAAI等會議領域主席,IEEE PAMI副主編。

視覺技術發展及應用

提問:計算機視覺在高精度地圖構建中的應用有哪些?

任小楓:視覺演算法對於高精度地圖構建是核心的技術,主要應用在資料對齊和精度保證、識別和地圖資料自動化生成、視覺定位和高精地圖更新等。

提問:您覺得現有的基礎學科研究水平與硬體水平能否保證視覺技術的快速發展?視覺技術發展在近期會不會遇到較難突破的瓶頸?

任小楓:經過了前幾年深度學習技術在視覺各個領域的快速發展,一定程度上說,深度學習和視覺的基礎技術現在都遇到了瓶頸。或者說,沒有開始的時候發展的那麼快,有很多難題需要解決,也可能需要創造新的技術。對於應用而言,我覺得基礎技術和硬體水平目前大致是夠用的,更重要的是如何把技術用好,有針對性的去突破技術瓶頸。

提問:單目標跟蹤SOT(給定模版跟蹤單個目標,類別無關/可跨域)近兩年的進展非常顯著,具有解決快速跟蹤的潛質,想請問目前有沒有在地圖業務這邊比如視覺定位(VO中跟蹤路標)/AR導航(短時跟蹤)中應用的前景?如果有的話,請問需要解決什麼樣的需求問題(魯棒/速度等)?

任小楓:跟蹤是一個視覺基礎技術,在很多場景都有應用。對於導航和出行,確實在AR導航、定位上能起到核心作用,減少識別(檢測)的計算需求,並增加魯棒性和平滑性。但是在很多實際應用中,跟蹤的使用和需求和學術界單目標跟蹤的設定會有所不同。

提問:視覺特徵是否能結合語義給地圖的導航出行服務帶來更好的體驗呢?

任小楓:視覺可以提供高精度的定位,也可以提供場景的語義理解,肯定可以帶來導航和出行更好的體驗。但是具體的產品體驗和技術實現還需要進一步的探索和積累。

提問:計算機視覺下一步的重難點是哪個方向?未來的前景如何?

任小楓:計算機視覺是一種通用的感知手段,資訊量很大,可以用於多種感知任務,可以遠距離觀測,應用的前景是很廣闊和美好的。下一步的難點,除了基礎技術需要進步和突破外。還有:如何找到視覺能發揮核心作用的應用場景,如何根據實際問題綜合各類演算法設計整體方案,如何較好的解決計算資源的問題,如何結合其他感測器和先驗知識等問題。

AR導航

提問:AR導航是實時影像計算的嗎?裝置算力可以打標嗎?

任小楓:AR導航是實時影像計算,在低算力的條件下實現導航和輔助駕駛功能。我們也儘可能的進行“預計算”,事先計算好環境中的一些元素,來配合實時計算。

提問:AR導航最後透過什麼來展示內容?螢幕還是HUD?

任小楓:AR導航有多種產品形態:中控屏、HUD、後視鏡、儀表盤,這些都是正在使用/潛在使用的展示方式。

提問:有一個非技術性的問題,AR導航會不會過度吸引駕駛員的注意力,導致他/她忽略車輛兩側的交通?

任小楓:這是一個產品設計的好問題,也是我們一直在打磨和尋求平衡的問題。一個設計的好的AR導航產品,會考慮到不過多吸引注意力。

提問:安全輔助駕駛會有疲勞駕駛檢測嗎?

任小楓:高德的AR導航目前只有朝外的單目相機,沒有支援疲勞駕駛檢測。對車內的監控,包括疲勞檢測,是視覺技術在安全輔助駕駛的一個重要應用。

定位技術

提問:室內定位現在主流實現技術有哪些?基於聲訊號的室內導航前景好嗎?

任小楓:室內定位有多種基於感測器的技術,包括WiFi,Bluetooth,RFID,Ultra-Wideband,也包括聲訊號。我覺得室內定位的發展,如果需要部署感測器,很大程度上不是取決於技術和定位精度,而是是否有好的應用。WiFi定位的普及是因為室內網路需要WiFi。iPhone 11裝了UWB晶片可以近距離檔案傳輸。

提問:GPS定位那麼大的差距是什麼原因導致的?因為多路徑效應嗎?

任小楓:GPS定位不準有多個原因,主要是在“城市峽谷”(高樓林立)的場景。多路徑效應是其中最重要的因素,因為環境的折射(特別是像玻璃這樣的高反光材料),導致GPS位置計算不準。其他方面還有因為樓宇/高架橋的遮擋導致能觀察到的衛星數降低,空氣(特別是帶電離子和水蒸氣)的干擾,等多種原因。

提問:高德如何解決GPS漂移的問題?

任小楓:這是一個複雜的問題。基於手機感測器,我們結合實際的駕駛和步行場景做了很多最佳化,包括GPS置信度分析,和IMU結合,和路網結合等。視覺定位是我們在開拓的解決定位不準的一個新方向。

地圖基礎技術

提問:目前高德地圖圖層有哪些?是語義級高精度地圖嗎?

任小楓:高德地圖有多種地圖資料形態,從標準地圖(高德App上看到的),到車道級地圖,到高精地圖。精度不同,對應的應用不同。多種地圖中都有語義資訊,但是語義資訊的內容和精度會有不同。

提問:深度相機和普通的相機有什麼區別?

任小楓:普通相機獲取的資訊是二維RGB影像,沒有三維資訊。深度相機在每個畫素上,除了RGB之外,也同時獲取深度(距離)資訊,一般是利用主動模式(time-of-flight, structured light等)。現在很多主流手機上都已經配備了深度相機。

提問:高德地圖對道路資訊是怎麼採集的,道路有變化地圖會實時更新麼?

任小楓:高德地圖道路資訊有多個來源,主要是依靠低成本的車載影片資料。道路相關資訊是在隨時變化的,我們會不斷的採集最新資料並製作更新地圖資料,及時上線應用。

提問:室內三維空間(比如多層的商業大樓)地圖繪製的難點有哪些?

任小楓:室內三維地圖繪製最大的難點在於資料採集。三維重建的方法需要有多個角度的影像。基於深度相機的移動建模方法精度上不一定能滿足需求。

新人職業成長

提問:從視覺和影像領域的學術研究領域到公司商業計算機視覺應用技術開發需要補充哪些知識?

任小楓:我覺得主要要考慮的不是補充具體的知識,而是要注意培養自己的各方面的能力:(1)對實際問題的分析和解決的能力;(2)動手能力;(3)快速學習和擴充知識的能力。

提問:從事計算機視覺領域該如何制定職業規劃?

任小楓:和其他行業和技術方向的職業規劃沒有本質的區別,要結合自身的長/短處和興趣,找到自己合適的工作方向,逐步提高技術深度,廣度,高度,綜合能力,一步步做出實際結果發展職業。

提問:請問現在從事視覺領域工作是否一定要具備深度學習的技能?

任小楓:計算機視覺現在大量的使用深度學習技術,深度學習的知識和技術我覺得是必須的。有一些和幾何相關的子領域,比如三維重建、SLAM/VIO,深度學習應用的還不多,但是(1)後續預計會有更多的深度學習應用;(2)從提高技術廣度和視野出發,也需要一定程度上了解深度學習。

業界熱點及其他

提問:自動駕駛會用到5G技術嗎?

任小楓:目前看來,5G技術會在自動駕駛上有多種應用,但對於L4/L5全自動駕駛,我覺得5G並不能從根本上解決自動駕駛安全性(和舒適性)的難題。

提問:跟蹤和定位中的計算端和雲如何配合?

任小楓:大體上來說,實時性要求高的,和感測器結合密切的,會在端上完成;和地圖結合密切的,需要用到大量參考資料的,會在雲上完成。

提問:谷歌地圖有一個街景地圖的模組用到了許多影像識別的技術,街景地圖怎麼拼成的?以及街景發展趨勢是怎樣的?

任小楓:谷歌地圖的街景地圖主要來自於谷歌自己的街景採集車,車上載有高質量的相機和組合慣導等感測器。街景地圖主要是一個拼接的過程。街景地圖很有意思,但還沒有對導航和出行的體驗帶來根本的變化。谷歌最近的AR步行導航(這個和高德的車載AR導航不同)是基於街景地圖的一個新應用。

提問:可穿戴裝置(類似眼鏡、智慧助手等)在視覺技術上如何更好的落地以及產品化?

任小楓:硬體(AR展示,算力)和體驗是可穿戴裝置要真正落地和普及的主要問題。Google Glass作為一個超前的產品,在硬體上受限制太大。目前AR眼鏡的應用主要在企業場景。我個人覺得可穿戴裝置作為個人助手(包括導航,資訊展示等)的應用前景是很好的,但現在硬體條件可能還不成熟。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69941357/viewspace-2689146/,如需轉載,請註明出處,否則將追究法律責任。

相關文章