首次公開!《阿里計算機視覺技術精選》揭祕前沿落地案例

阿里技術_發表於2018-12-27

640?wx_fmt=jpeg


當下計算機視覺技術無疑是AI浪潮中最火熱的議題之一。視覺技術的滲透,既可以對傳統商業進行改造使之看到新的商業機會,還可以創造全新的商業需求和市場。無論在電商、安防、娛樂,還是在工業、醫療、自動駕駛領域,計算機視覺技術都扮演著越發重要的角色。

 

元旦假期即將來臨,我們精心準備了這本《阿里巴巴機器智慧計算機視覺技術精選》,收錄了頂級會議 CVPR 2018 阿里論文,送給計劃在假期“充電”的同學們,也希望能和更多學術界、工業界同仁一起探討交流。

 

640?wx_fmt=png


如何免費下載?


長按識別以下二維碼,關注“阿里巴巴機器智慧”官方公眾號,並在對話方塊內回覆“視覺技術”,即可免費線上閱讀或下載此書。


640?wx_fmt=png


在這本乾貨精選集中,我們收錄了多篇具有代表性的 CVPR 2018 論文。比如,拍立淘利用影像搜尋和識別技術,幫助使用者在移動端通過拍照就能到相似商品;線下新零售領域,阿里用空間定位、貨架商品SKU識別技術推動“人貨場”數字化,並做進一步的商業分析;城市大腦專案中,阿里研發了大規模視訊高效處理技術,幫助城市交通事故識別、人流軌跡判斷、交通資料樣本彙總。

640?wx_fmt=png

部分目錄


哪些核心技術值得一看?


Spotlight論文《基於時間尺度選擇的線上行為預測》討論了視訊中行為預測的一個非常重要的問題:怎麼去選擇一個好的時間維度視窗?論文提出了包含多個子網路的尺度選擇網,比如包括時間序列建模的一維卷積子網路、尺度迴歸子網路以及行為預測子網路。在兩個公開資料集上,尺度選擇網的實驗結果優於其他方法,並且準確率也接近使用Ground Truth尺度的結果。

 

Spotlight論文《基於語境對位元徵和門控多尺度融合的場景分割》致力於場景分割中的兩大問題:場景圖片中畫素形式的多樣化(例如:顯著或者不顯著、前景或者背景)和場景圖片中物體大小的多樣性。文章針對這兩個問題分別提出了語境對比區域性特徵和門控多尺度融合方法。本文提出的模型在Pascal Context, SUN-RGBD和COCO Stuff 三個場景分割資料集上驗證了效能,取得了目前最高的場景分割效能。

 

對於跨模態檢索而言,如何學到合適的特徵表達非常關鍵。Spotlight論文《所見所想所找-基於生成模型的跨模態檢索》提出了一種基於生成模型的跨模態檢索方法,該方法可以學習跨模態資料的高層次特徵相似性,以及目標模態上的區域性相似性。本文通過大量的實驗證明了所提出的方法可以準確地匹配影像和文字,並且在MSCOCO以及Flickr30K的資料集上都取得了state-of-the-art的效果。

 

在論文《整體還是區域性?應用Localized GAN進行影像內容編輯、半監督訓練和解決mode collapse問題》中,作者建立了GAN和半監督機器學習中Laplace-Beltrami運算元的聯絡,在用少量標註樣本訓練深度學習模型上取得了優異的效能。同時論文還展示了用Localized GAN (LGAN)對給定影像在區域性座標系下進行編輯修改,從而獲得具有不同角度、姿態和風格的新影像;以及如何從流型切向量獨立性的角度來解釋和解決GAN的mode collapse問題。


論文《處理多種退化型別的卷積超解析度》針對現有基於CNN的單圖超分(SISR)演算法不能擴充套件到用單一模型解決多種不同的影像退化型別的問題,提出了一種維度拉伸策略,使得單個卷積超解析度網路能夠將SISR退化過程的兩個關鍵因素(即模糊核和噪聲水平)作為網路輸入來解決這個問題。實驗結果表明提出的卷積超解析度網路可以快速、有效的處理多種影像退化型別,為SISR實際應用提供了一種高效、可擴充套件的解決方案。


論文《於尺度空間變換的本徵影像分解》將把影像分解為其本徵的反射影像和光照影像看作是一個影像到影像的轉換問題,並且將輸入和輸出在尺度空間進行分解。通過將輸出影像(反射影像和光照影像)擴充套件到它們的拉普拉斯金字塔的各個成分,論文提出了一種多通道網路結構,可以在每個通道內並行地學習到一個影像到影像轉換函式,這個函式通過一個具有跳過連線的卷積神經網路來表示。在MPI-Sintel資料集和MIT Intrinsic Images資料集上結果表明,新提出的模型在比之前最先進的技術上有了明顯的進步。

 

大多數現有的零樣本學習(Zero-Shot Learning,ZSL)方法都存在強偏問題。在論文《基於直推式無偏嵌入的零樣本學習》中,作者提出了一個簡單而有效的方法,稱為準完全監督學習(QFSL),來緩解此問題。假定標記的源影像和未標記的目標影像都可用於訓練。在語義嵌入空間中,被標記的源影像被對映到由源類別指定的若干個嵌入點,並且未標記的目標影像被強制對映到由目標類別指定的其他點。在AwA2,CUB和SUN資料集上進行的實驗表明,文章的方法在遵循廣義ZSL設定的情況下比現有技術的方法優越。


更為具體的實踐資訊,大家可以通過此本電子書,進一步瞭解。


好的視覺技術不僅需要好的方法指引,還需要在實際的場景中形成資料閉環和不斷打磨。未來的計算機視覺技術一定是理論探索和資料實踐的共同推進。希望這本論文合集能拋磚引玉,給學術界和工業界帶來一些輸入,共同推進計算機視覺技術的發展。


如何免費下載?


長按識別以下二維碼,關注“阿里巴巴機器智慧”官方公眾號,並在對話方塊內回覆“視覺技術”,即可免費線上閱讀或下載此書。


640?wx_fmt=png


640?wx_fmt=gif

你可能還喜歡

點選下方圖片即可閱讀


640?wx_fmt=jpeg

周博通 | 阿里開源首個 DL 框架、4000臺伺服器真實資料集;明年1月開源Blink


640?wx_fmt=jpeg

萬字長文揭祕:阿里如何實現海量資料實時分析?


640?wx_fmt=jpeg

阿里玄難:面向不確定性的軟體設計幾點思考


640?wx_fmt=jpeg

關注「阿里技術」

把握前沿技術脈搏

相關文章