首次公開!《阿里計算機視覺技術精選》揭祕前沿落地案例
當下計算機視覺技術無疑是AI浪潮中最火熱的議題之一。視覺技術的滲透,既可以對傳統商業進行改造使之看到新的商業機會,還可以創造全新的商業需求和市場。無論在電商、安防、娛樂,還是在工業、醫療、自動駕駛領域,計算機視覺技術都扮演著越發重要的角色。
元旦假期即將來臨,我們精心準備了這本《阿里巴巴機器智慧計算機視覺技術精選》,收錄了頂級會議 CVPR 2018 阿里論文,送給計劃在假期“充電”的同學們,也希望能和更多學術界、工業界同仁一起探討交流。
如何免費下載?
長按識別以下二維碼,關注“阿里巴巴機器智慧”官方公眾號,並在對話方塊內回覆“視覺技術”,即可免費線上閱讀或下載此書。
在這本乾貨精選集中,我們收錄了多篇具有代表性的 CVPR 2018 論文。比如,拍立淘利用影像搜尋和識別技術,幫助使用者在移動端通過拍照就能找到相似商品;線下新零售領域,阿里用空間定位、貨架商品SKU識別技術推動“人貨場”數字化,並做進一步的商業分析;城市大腦專案中,阿里研發了大規模視訊高效處理技術,幫助城市交通事故識別、人流軌跡判斷、交通資料樣本彙總。
部分目錄
哪些核心技術值得一看?
Spotlight論文《基於時間尺度選擇的線上行為預測》討論了視訊中行為預測的一個非常重要的問題:怎麼去選擇一個好的時間維度視窗?論文提出了包含多個子網路的尺度選擇網,比如包括時間序列建模的一維卷積子網路、尺度迴歸子網路以及行為預測子網路。在兩個公開資料集上,尺度選擇網的實驗結果優於其他方法,並且準確率也接近使用Ground Truth尺度的結果。
Spotlight論文《基於語境對位元徵和門控多尺度融合的場景分割》致力於場景分割中的兩大問題:場景圖片中畫素形式的多樣化(例如:顯著或者不顯著、前景或者背景)和場景圖片中物體大小的多樣性。文章針對這兩個問題分別提出了語境對比區域性特徵和門控多尺度融合方法。本文提出的模型在Pascal Context, SUN-RGBD和COCO Stuff 三個場景分割資料集上驗證了效能,取得了目前最高的場景分割效能。
對於跨模態檢索而言,如何學到合適的特徵表達非常關鍵。Spotlight論文《所見所想所找-基於生成模型的跨模態檢索》提出了一種基於生成模型的跨模態檢索方法,該方法可以學習跨模態資料的高層次特徵相似性,以及目標模態上的區域性相似性。本文通過大量的實驗證明了所提出的方法可以準確地匹配影像和文字,並且在MSCOCO以及Flickr30K的資料集上都取得了state-of-the-art的效果。
在論文《整體還是區域性?應用Localized GAN進行影像內容編輯、半監督訓練和解決mode collapse問題》中,作者建立了GAN和半監督機器學習中Laplace-Beltrami運算元的聯絡,在用少量標註樣本訓練深度學習模型上取得了優異的效能。同時論文還展示了用Localized GAN (LGAN)對給定影像在區域性座標系下進行編輯修改,從而獲得具有不同角度、姿態和風格的新影像;以及如何從流型切向量獨立性的角度來解釋和解決GAN的mode collapse問題。
論文《處理多種退化型別的卷積超解析度》針對現有基於CNN的單圖超分(SISR)演算法不能擴充套件到用單一模型解決多種不同的影像退化型別的問題,提出了一種維度拉伸策略,使得單個卷積超解析度網路能夠將SISR退化過程的兩個關鍵因素(即模糊核和噪聲水平)作為網路輸入來解決這個問題。實驗結果表明提出的卷積超解析度網路可以快速、有效的處理多種影像退化型別,為SISR實際應用提供了一種高效、可擴充套件的解決方案。
論文《於尺度空間變換的本徵影像分解》將把影像分解為其本徵的反射影像和光照影像看作是一個影像到影像的轉換問題,並且將輸入和輸出在尺度空間進行分解。通過將輸出影像(反射影像和光照影像)擴充套件到它們的拉普拉斯金字塔的各個成分,論文提出了一種多通道網路結構,可以在每個通道內並行地學習到一個影像到影像轉換函式,這個函式通過一個具有跳過連線的卷積神經網路來表示。在MPI-Sintel資料集和MIT Intrinsic Images資料集上結果表明,新提出的模型在比之前最先進的技術上有了明顯的進步。
大多數現有的零樣本學習(Zero-Shot Learning,ZSL)方法都存在強偏問題。在論文《基於直推式無偏嵌入的零樣本學習》中,作者提出了一個簡單而有效的方法,稱為準完全監督學習(QFSL),來緩解此問題。假定標記的源影像和未標記的目標影像都可用於訓練。在語義嵌入空間中,被標記的源影像被對映到由源類別指定的若干個嵌入點,並且未標記的目標影像被強制對映到由目標類別指定的其他點。在AwA2,CUB和SUN資料集上進行的實驗表明,文章的方法在遵循廣義ZSL設定的情況下比現有技術的方法優越。
更為具體的實踐資訊,大家可以通過此本電子書,進一步瞭解。
好的視覺技術不僅需要好的方法指引,還需要在實際的場景中形成資料閉環和不斷打磨。未來的計算機視覺技術一定是理論探索和資料實踐的共同推進。希望這本論文合集能拋磚引玉,給學術界和工業界帶來一些輸入,共同推進計算機視覺技術的發展。
如何免費下載?
長按識別以下二維碼,關注“阿里巴巴機器智慧”官方公眾號,並在對話方塊內回覆“視覺技術”,即可免費線上閱讀或下載此書。
你可能還喜歡
點選下方圖片即可閱讀
周博通 | 阿里開源首個 DL 框架、4000臺伺服器真實資料集;明年1月開源Blink
關注「阿里技術」
把握前沿技術脈搏
相關文章
- 探討計算機視覺前沿技術,加速智慧城市落地應用 | CNCC 2019計算機視覺
- 首次揭祕!阿里無人店系統背後的技術阿里
- 計算機視覺技術專利分析計算機視覺
- 計算機視覺--CV技術指南文章彙總計算機視覺
- 計算機視覺面試經歷| 掘金技術徵文計算機視覺面試
- 解讀 | 2019年10篇計算機視覺精選論文(上)計算機視覺
- 凹凸技術揭祕·羚瓏頁面視覺化·成長蛻變之路視覺化
- 阿里分散式系統效能提升10000倍的技術揭祕——視訊解析阿里分散式
- 前沿分享|阿里雲資料庫資深技術專家 姚奕瑋:AnalyticDB MySQL離線上一體化技術揭祕阿里資料庫MySql
- 引領深度學習潮流,刷屏計算機視覺頂會,揭祕商湯研究夢之隊深度學習計算機視覺
- 【魅族大賽技術公開課】移動應用開發技術精選
- 技術揭祕 | 阿里雲EMR StarRocks 線上釋出會預約開啟!阿里
- 影片美顏sdk和計算機視覺技術有哪些關聯?計算機視覺
- PingCode 技術架構揭祕GC架構
- 後深度學習時代,計算機視覺技術如何走向未來?深度學習計算機視覺
- 有趣!用計算機視覺技術與PaddlePaddle打造AI控煙專案計算機視覺AI
- css揭祕實戰技巧 - 視覺效果[三]CSS視覺
- 計算機視覺論文集計算機視覺
- iOS計算機視覺—ARKitiOS計算機視覺
- 某計算機視覺公眾號乾貨文章集錦計算機視覺
- PingCode Flow技術架構揭祕GC架構
- Taro 技術揭祕:taro-cli
- 前端前沿技術精選|千鋒《JavaScript全套資料》免費領前端JavaScript
- 計算機視覺技術在物聯網中的發展與應用計算機視覺
- 葉聰:朋友圈背後的計算機視覺技術與應用計算機視覺
- 朋友圈爆款背後的計算機視覺技術與應用(附視訊)計算機視覺
- OpenVINO計算機視覺模型加速計算機視覺模型
- 計算機視覺環境配置計算機視覺
- 計算機視覺—影象特效(3)計算機視覺特效
- 遊戲反外掛技術揭祕遊戲
- Taro 技術揭祕之taro-cli
- 劍指Kubernetes 揭祕騰訊雲的PaaS技術選型策略
- 【計算機視覺】視訊格式介紹計算機視覺
- 淺談深度學習的技術原理及其在計算機視覺的應用深度學習計算機視覺
- 揭開DRF序列化技術的神祕面紗
- 揭開JS無埋點技術的神祕面紗JS
- 降低30%視訊位元速率,窄帶高清技術實現揭祕
- 安全多方計算新突破!阿里首次實現“公開可驗證” 的安全方案阿里