Wider Challenge結果爆出,實時3D物件探測技術釋出 | AI一週學術

大資料文摘發表於2019-02-26

Wider Challenge結果爆出,實時3D物件探測技術釋出 | AI一週學術

大資料文摘專欄作品

作者:Christopher Dossman

編譯:笪潔瓊、conrad、雲舟

嗚啦啦啦啦啦啦啦大家好,AI Scholar Weekly第二期與大家見面啦,由於排稿問題,這次的專欄延遲了一天更新,鞠躬道歉!

AI Scholar Weekly是AI領域的學術專欄,致力於為你帶來最新潮、最全面、最深度的AI學術概覽,一網打盡每週AI學術的前沿資訊,文末還會不定期更新AI黑鏡系列小故事。

週一更新,做AI科研,每週從這一篇開始就夠啦!

本週關鍵詞:開源影像分段資料標記軟體;深層卷積;SoTA人臉影像編輯系統;實時3D物體識別。

還記得2018年Wider Challenge嗎?現在結果出來啦

大眾評判的基準和ImageNet與COCO舉辦的系列挑戰賽,都在逐步推進AI研究的發展。這些舉措不但激發了來自學術界和行業內外的學者與開發人員參與其中,還鼓勵他們更加深入地進行研究與開發,正是這樣的結果激勵了人臉(識別)與行人(檢測)這些行業舉辦頂級賽事。

該項挑戰的三項任務來自計算機視覺中一些長期存在的挑戰以及估計問題,其中包括人臉檢測,行人檢測和人物搜尋。

Wider Challenge結果爆出,實時3D物件探測技術釋出 | AI一週學術

結果:挑戰總結及成功的解決方案

挑戰者將會得到關於以上三項任務的基礎資料集,在參與流程的知道小,挑戰者需要將他們的模型輸出結果上傳至公共評估伺服器,該伺服器分為驗證階段和最終測試階段,最終勝利的挑戰者將由模型的輸出表現來確定。

這篇研究論文對提交了有效結果的100多位挑戰者的研究思路進行了總結。在人臉檢測任務中,獲勝者通過整合多重人臉識別預測來設計了一個獨立檢測器。

在行人檢測競賽中,獲勝者提出了一個級聯的R-CNN模型與強大的附加結構,用來提高效能。而在人物搜尋競賽中,獲勝者設計了一個級聯模型,該模型使用了每個人的臉部特徵以及身體特徵。除此之外,該研究論文還介紹了前5位獲勝者的研究思路細節。

潛在應用與效果

WIDER challenge激勵了開發者與研究學者進一步去研究和解決計算機視覺中的關鍵問題。新的方法毋庸置疑會推動並構建有效的系統,使得人們在人臉檢測和物體檢測方向中解決一些更為嚴峻的問題。

原文: 

https://arxiv.org/abs/1902.06854v1

用於學習多個視覺領域的深層卷積

Wider Challenge結果爆出,實時3D物件探測技術釋出 | AI一週學術

深層可分離卷積已被證實非常適合進行標準卷積應用,其中包括影像分類,自然語言處理和嵌入式視覺應用。這項研究則是首次在深層(卷積)中探索其在多領域中的應用,它是基於來自不同領域的共享跨道關係的假設。

為了能在不同領域中進行有效的知識傳送,研究人員引用softmax的門控機制,在視覺全能挑戰基準上進行了測試,他們採取的方法得分高於目前最新的傳統方法的得分。

潛在應用與效果

研究者提出的方法比較經典,易於擴充,可以以較少的算力來訓練和適應新的領域。深層卷積同樣也可以用來提高特定區域的精度。該方法可以應用於優化計算機視覺、情感分析、推薦系統等領域。

原文:

https://arxiv.org/abs/1902.00927v2

SC-FEGAN :新人臉編輯系統

Wider Challenge結果爆出,實時3D物件探測技術釋出 | AI一週學術

SC-FEGAN 是一款高階人臉編輯系統。它基於CNN,使用使用者的草圖和顏色作為輸入,來生成併合成高質量的影像,而使用者僅僅需要完成簡單的任務即可。

為了優化影像不完美的邊緣,SC-FEGAN 加入了使用門控摺積的自由形式影像修復(SN-patch GAN),此外,它還訓練了GAN與風格損失函式實現高質量的影像編輯。根據這項研究,將SC-FEGAN 在結構和形狀的質量方面上述的影像修復方法進行比較方向——使用自由形式的模型產生的效果更好。研究人員在celebA-HQ資料集上對該系統進行了分別的訓練。

潛在應用與效果

Wider Challenge結果爆出,實時3D物件探測技術釋出 | AI一週學術

SC-FEGAN 只需一次通過,即可執行轉換和恢復大部分面積的面部影像。它還允許使用者自主編輯影像特徵,比如髮型、臉型、眼睛、嘴巴等等。SC-FEGAN具有推動面部識別應用工作的潛力。此外,它還能幫助生成我們非常需要的高質量的基礎影像資料集。

原文: 

https://arxiv.org/abs/1902.06838v1

非標記(Free Label)的快速、高質量註解

這篇新發布的研究報告介紹了一個新工具——Free Label,該工具的目標是幫助使用者獲得高質量的、可以很容易適應不同資料集和種類的註解。這項基於Web的工具,為影像分類資料集快速、高質量的標註提供了一種典型的互動式介面。

為了達到精煉的語義分類,Free Label實現了區域生長分割(Region Growing Refinement,即RGR)演算法。RGR可以是完全非監督式的,並且實現起來很簡單。不像其他相關演算法,它的計算時間和引數化允許極快速的使用者互動。由於Free Label實現了一個模組設計並且僅僅依賴於開源庫,因此很容易便能被獲取。它能夠被部署到一個本地或外部的伺服器上,允許使用者通過私有或公有的方法來做註解。

潛在應用與效果

通過利用Free Label的模組化結構來輕易標註影像資料集,深度學習社群可以很大程度上從中獲益。Free Label也可以被調整去幫助對不同資料集的有效分類,此舉可以幫助開發更加精確和魯棒的模型。可以通過短視訊教程和一個有趣的、遊戲版本的Free Label,去學習如何使用併合理地標註資料集。

原文:

https://arxiv.org/abs/1902.06806v1

程式碼:

https://bitbucket.org/phil_dias/freelabel-wacv/src

LiDAR FlowNet:用GRU來估計動態流

研究者們最近提出了一個基於高階神經網路2D Map預測方法的動態流LiDAR-FlowNet,它現在可以在來自上一個和目前框架下已存在的Map和未知的Map中估計動態流。

除此之外,為了取得高水平表現,他們已經設計了一個自監督的策略來訓練LiDAR FlowNet。這讓在2D LiDAR-FlowNet Map上預測下一個動態變得簡單明瞭起來。對於研究者和開發者來說,好訊息是這項新方法的測試結果驗證了它的有效性。

潛在應用與效果

對人工智慧和機器學習社群來說,LiDAR FlowNet能夠幫助我們找到一個更便宜的方式去實現高階LiDAR Map預測。這個舉措將會刺激所有動態規劃應用領域的潛在機會,從而推動整個領域的進步,例如真實世界中自動控制的設計和應用,自動駕駛汽車,角色動畫,建築設計,遊戲,分子生物等等。

原文:

https://arxiv.org/abs/1902.06919v1

PIXOR:來自點雲的實時3D物件探測

新研究發現了一個新的單階段檢測器模型——PIXOR,可以從畫素神經網路預測解碼,從而輸出實時的、基於3D物件的估計。可以它想成一個為密集的基於3D物件檢測設計的完全卷積神經網路。模型輸入描述包括鳥瞰的視野網路結構以及一個模型優化方法,該方法是為在自動駕駛中取得平衡感,從而獲得高精確度和實時效率而設計的。

研究者在KITTI BEV目標檢測以及大規模3D機動車檢測基準上證實了PIXOR的有效性。結果顯示,對比最先進的卷積方法,PIXOR在超過28FPS運轉的同時,能提供高水平的效率和AP(平均精度,Average Precision)準確度。

Wider Challenge結果爆出,實時3D物件探測技術釋出 | AI一週學術

潛在應用與效果

PIXOR通過增加LIDAR物件和麵部識別,為魯棒的3D物件定位取得了更高的簡化度和更低的成本。模型有潛力去實現一些自動駕駛汽車的關鍵技術,比如實時3D屏重構,自定位和通過語義分析以及面對物件的語義理解讓機動車實時響應。

原文:

https://arxiv.org/abs/1902.06326v1

AI黑鏡——基於AI技術的人倫小故事

恐怖分子在哪裡

在我們共享的線上工作區忽然蹦出了一些字元,不是聊天資訊也不是筆記,是一個通知,“相關資訊已被上傳至RECOG。”

憤怒的一刻——顯然,在我們的工作系統中插入這個程式已成定局。就像在星期五下午突然通知要加班一樣,對於一個我們沒有調查或除錯許可權的系統,我們當然不可能提出不同意見。同樣,在這個問題上,我們的意見並不重要。

儘管這個系統是否能得出有價值的結果還不得而知,但是它工作的方式已經確定了,RECOG可以從我們所有的任務和對話中學習。

之後,很多人的情緒開始從憤怒開始感到驚慌——RECOG的工作介面一直顯示“正在工作……”,從來不會拒絕響應。

我們要把RECOG訓練成一個目標識別和問題回答的系統。但它不是我們開發的系統,是政府把它從……不知道什麼地方帶來的,也正因如此,這個東西的訪問許可權設定非常謹慎。

我只知道我們的工作是,把其中的黑盒內容轉變成邏輯清晰的系統。

但是,我們無法檢視它的大部分程式碼,只能通過精心設計的問題測試它。

所以我們給它提供了大量的城市影像。他們用綁在無人駕駛飛機上的高解析度攝像機收集了好幾天的資料,為了瞭解這些影像中的人是誰,或者至少了解他們的工作。

當時我們正在解決校準問題,從最簡單的問題“那裡有多少男性穿著紅色夾克、戴著墨鏡?”,到複雜的問題“哪個熱狗攤最火爆?”系統的回應非常精彩,以至於有人忽然問出了那個問題。

那時只有我們三個人還在做這個專案。指令的來源無法追蹤,所以我不知道這個問題的具體內容,但我知道接下來發生了什麼。

“工作……完成。找到匹配目標。”

在一張巨大的城市鳥瞰影像中,一個小紅框迅速放大並填充了我們面前的顯示器。

  • 人類概率:99%

  • 男性概率:91%

  • 罪犯概率:77%

  • 恐怖分子概率:70%

問題是,是誰建立了這些類別?

我們之後都沒有再說話,各自回去工作,假裝什麼都沒發生。

我之後聽說了RECOG犯了個大錯,那天它鎖定的人是個FBI探員,被派跟蹤並吸引國內的潛在恐怖分子現身。他當時正在去見一個他追蹤的人的路上。而這馬上被RECOG關注到了。

無論發生了什麼,我們那天傍晚就接到電話,被告知接下來的這周我們可以休息了,而在那之後不久,我們又被告知接下來可以一直休息,因為他們把這個專案撤下來了。我猜他們認為這個專案已經不適合再交給我們做了。

但是,我一直想知道RECOG下一步會出現在哪裡?

我一直想做一個鳥類識別的系統。雖然真實的鳥味道不好聞、很吵並且總需要被餵食,但鳥類的影像是很美的。我的教授認為這個專案會很簡單,我只需要提供一個夏天的時間就能完成。

但現在,我卻在想,政府的這些步驟會給恐怖分子提供些什麼?

在人類歷史上的一些特殊時期,人們經常會因為舉報——比如嫉妒的鄰居舉報或者腐敗的警察敲詐,被拖走並折磨至死。那麼一個如果廉潔的機器所說的話,又會引發怎樣的事情呢?

Wider Challenge結果爆出,實時3D物件探測技術釋出 | AI一週學術
專欄作者介紹

Christopher Dossman是Wonder Technologies的首席資料科學家,在北京生活5年。他是深度學習系統部署方面的專家,在開發新的AI產品方面擁有豐富的經驗。除了卓越的工程經驗,他還教授了1000名學生了解深度學習基礎。

LinkedIn:

https://www.linkedin.com/in/christopherdossman/

英文報導連結:

https://medium.com/@cdossman/ai-scholar-5-8af068233a28

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31562039/viewspace-2637023/,如需轉載,請註明出處,否則將追究法律責任。

相關文章