不卷積也能做自動駕駛?新研究提出StarNet,一週AI最火學術

dicksonjyl560101發表於2019-09-18
2019-09-17 10:22:43
不卷積也能做自動駕駛?新研究提出StarNet,一週AI最火學術

嗚啦啦啦啦啦啦啦大家好,拖更的AI Scholar Weekly欄目又和大家見面啦!

AI Scholar Weekly是AI領域的學術專欄,致力於為你帶來最新潮、最全面、最深度的AI學術概覽,一網打盡每週AI學術的前沿資訊。

每週更新,做AI科研,每週從這一篇開始就夠啦!

本週關鍵詞: Google Go鏡頭新功能、AI精確預測抑鬱、自動駕駛資料集更新

本週最佳學術研究


LOCATA 挑戰


還記得LOCA他的挑戰嗎? 不久前的一篇論文和IEEE都介紹過這一挑戰。 其目標是為聲源定位領域的研究人員提供機會,並在包含不同場景和麥克風配置的真實多聲道錄音的通用資料語料庫上比較模型的準確性。


論文連結:

https://arxiv.org/pdf/1812.04942.pdf


IEEE網頁連結:

https://signalprocessingsociety.org/get-involved/audio-and-acoustic-signal-

processing/newsletter/locata-challenge

最近新發表的一篇論文提供了相關定位追蹤演算法的基本介紹,並對這一領域的文獻進行了回顧。與此同時,它還詳細討論了提交給LOCATA挑戰的基準測試結果、仍存在的開放性問題以及潛在的未來發展方向。


這一開源LOCATA挑戰資料庫為開發者提供了一個能夠客觀分析最新定位與追蹤演算法的框架。它的水平達到了怎樣的高度?目前,該研究主要集中在靜態場景上,只有一小部分解決了涉及多個移動源的任務。這一結果表明我們仍有很大的改進空間。如果你感興趣,定位和跟蹤技術仍然是一個開放的挑戰,這一論文的作者希望大家能夠提供資料集或評估工具,以此來刺激和評估未來的進展。


原文:

https://arxiv.org/abs/1909.01008

NuScenes 更新:又一個多模型自動駕駛資料集


Aptiv Autonomous Mobility(原名NuTonomy)近日釋出了NuScenes的更新版本,這一更新使研究人員能夠使用真正的自動駕駛汽車的完整感測器套件有效地研究具有挑戰性的城市駕駛情況。第一個資料集釋出於2019年3月。


資料集連結:

https://medium.com/ai%C2%B3-theory-practice-business/the-first-and-only-dataset-containing-the-full-autonomous-vehicle-sensor-suite-677e13449c8f

不卷積也能做自動駕駛?新研究提出StarNet,一週AI最火學術


更新的資料集現在具有完整的感測器套件(1個鐳射雷達,5個雷達,6個攝像頭,以及IMU和GPS),1000個場景,1400,000個攝像頭影象,390,000個鐳射雷達掃描結果,並覆蓋波士頓和新加坡。除此之外,還有左右側交通以及詳細的地圖資訊 、23類物件的人工註釋,以2Hz註釋的1.4M 3D邊界框以及來自包括不同車輛、行人、移動裝置和其他物件的23個類別的可見性、活動和姿勢等屬性。


NuScenes是第一個也是目前唯一一個包含完整360°感測器套件(鐳射雷達、影象和雷達)的資料集,它可以免費用於非商業用途。據稱,它在尺寸和準確性方面超過了公共KITTI、百度ApolloScape、Udacity和Berkeley DeepDrive資料集。


毫無疑問,NuScenes將大力支援和推動計算機視覺和自動駕駛領域的研究和進步。其豐富的複雜性和極高的質量也將鼓勵學生、學者以及業界開發者們不斷研究針對城市的自動駕駛技術。


原文:

https://arxiv.org/abs/1903.11027v2

3D 臉部模型——從過去到未來


近日,一項最新研究提供了3D 臉部模型(3DMM)發展歷程的詳細回顧,涵蓋了它的起源、現狀和未來。在本文中,研究人員目前面臨的問題主要是捕獲、建模、影象形成和影象分析構建,以及實際構建3D 臉部模型所面臨的挑戰。


3D 臉部模型領域中一個最大的挑戰是要在低維引數模型和可建模的細節程度之間達到平衡。遺憾的是,目前還沒有針對眼睛、牙齒、毛髮、皮膚細節、軟組織等解剖學方面的肌肉引數模型。


不卷積也能做自動駕駛?新研究提出StarNet,一週AI最火學術


研究人員還指出,這些方法仍然是這一領域活躍的研究課題,他們還回顧了這些領域的最新技術。 向前展望,他們也指出來很多未解決的挑戰,併為未來的研究提出了他們的建議以及現有與未來的應用方向。


3D臉部模型有很多潛在應用。本文為該領域的新研究人員構建了一個可靠的回顧和介紹。作為一個高質量的3D 臉部模型參考指南,它為這一領域提供了許多令人興奮的開放性研究問題。


原文:

https://arxiv.org/abs/1909.01815

StarNet: 一種計算靈活的、非卷積的自動駕駛感知目標檢測器


在這項研究中,研究人員提出了一種新的檢測器模型,通過在三維 LiDAR資料的背景下重新檢查目標檢測系統的設計,從而來更好地匹配資料形態和自動駕駛汽車感知的需求。他們首先指出一個事實,即三維區域的提議本質上是不同的,地面上的每個反射點都必須屬於一個物件。


他們還表明,點雲上的有效取樣方案(零學習引數)足以生成區域提議。取樣是因為它計算成本低,並且具有通過匹配場景的資料分佈來間接利用資料稀疏性的特點。


不卷積也能做自動駕駛?新研究提出StarNet,一週AI最火學術


研究人員隨後在沒有整體環境或共享資訊的情況下處理每個提議的區域。最後,它們完全避免了任何離散化過程,並在其位置上使用本地點雲分類和迴歸物件的邊界框位置。通過重新審視當前技術的一些設計假設,他們在沒有訓練提議,也沒有全域性環境的情況下得到了一個非卷積的、基於點的物件檢測器模型。


在使用KITTI和Waymo開放資料集進行評估時,這一StarNet檢測器模型能在較低的推理成本下達到與現有技術一樣的精確度,在類似的推理成本下甚至能做到更精確。


該模型不會浪費對空區域的計算。並且,該模型不使用全域性語境,完全基於點,並且可以在推理時動態地改變提議的數量與每個提議的點數。由於每個區域都是完全獨立的,因此可以在執行時根據環境選擇分配區域提議的位置。簡單來說,StarNet可用於定位空間位置,不需要重新訓練,也不會犧牲預測質量。


原文:

https://arxiv.org/abs/1908.11069v1

更牛逼的Google Go鏡頭功能


谷歌推出了新版的Google Lens,並在Google Go中更新了閱讀功能。新的Google Lens應用程式意圖幫助面臨閱讀和跨語言挑戰的人。這些人現在可以用手機攝像頭對準他們不明白的文字,翻譯後的文字將直接顯示,並且可以語音播放。為了做到這一點,鏡頭需要能在不同裝置上捕捉高質量的影象,識別文字並理解其結構,翻譯並將結果疊加在上下文中,最後大聲朗讀出來。該應用還能在閱讀的同時高亮每個單詞。此外,雖然Google Go之前僅能在Android Go裝置上使用,但現在谷歌已經將此應用在Play Store商店中全球上市了。

谷歌鏡頭的新閱讀能力無疑在幫助全球數百萬人應對閱讀和其它各種基於語言的挑戰方面起了至關重要的作用。我相信,在機器學習與智慧手機發展的結合下,未來會更好。

https://www.toutiao.com/a6737459204849664525/

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/29829936/viewspace-2657481/,如需轉載,請註明出處,否則將追究法律責任。

相關文章