7 Papers & Radios | 史丹佛學者造出「機器鴿」

杜佳豪發表於2020-01-19

目錄:
  1. EmotionCues: Emotion-Oriented Visual Summarization of Classroom Videos

  2. Ultrafast Video Attention Prediction with Coupled Knowledge Distillation

  3. DeepShift: Towards Multiplication-Less Neural Networks

  4. Pose-Assisted Multi-Camera Collaboration for Active Object Tracking

  5. Soft biohybrid morphing wings with feathers underactuated by wrist and finger motion

  6. AutoCompress: An Automatic DNN Structured Pruning Framework for Ultra-High Compression Rates

  7. Escaping from saddle points on Riemannian manifolds 

  8. ArXiv Weekly Radiostation:NLP、CV、ML更多精選論文(附音訊)。


論文 1:EmotionCues: Emotion-Oriented Visual Summarization of Classroom Videos
  • 作者:Haipeng Zeng、Xinhuan Shu、Yanbang Wang 等

  • 論文連結:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8948010

摘要:近日,一篇有關課堂監控技術的論文刊登在《IEEE Transactions on Visualization and Computer Graphics》上。在論文中,來自香港科技大學、哈爾濱工程大學等機構的研究者提出了一種名為 EmotionCues 的系統。該系統主要關注如何記錄學生面部表情,並據此來分析學生在課堂上的情緒變化、注意力集中程度

作者之一、香港科技大學計算機教授屈華民介紹說,這個系統「為教師提供了一種更快速、更方便去衡量學生在課堂上參與度的方法。」這項研究的初衷是「善意」的:依靠該系統去監控學生在課堂上的情緒反饋,判斷學生在什麼時候開始感到無聊,什麼時候注意力更加集中,以此來提醒老師該如何改善課堂內容、提高授課質量。

7 Papers & Radios | 史丹佛學者造出「機器鴿」

整個系統的工作流程,包括資料處理和視覺探索兩大階段

7 Papers & Radios | 史丹佛學者造出「機器鴿」

研究者設計了一個摘要檢視,讓老師可以看到學生情感的靜態和動態演變資料。圖(a)顯示的是學生的情感檔案,用於展示學生的情感分佈(靜態摘要);圖(b)顯示的是學生的情感變化曲線(動態摘要)。

7 Papers & Radios | 史丹佛學者造出「機器鴿」

情感變化的視覺化圖示。

推薦:港科大、哈工程的研究者開發的這種用 AI 攝像頭記錄、分析學生情感變化的系統,不僅能知道學生什麼時候開始走神,還能具體看到每個學生一整節課的「心路歷程」。

論文 2:Ultrafast Video Attention Prediction with Coupled Knowledge Distillation
  • 作者:Kui Fu、eipei Shi、Yafei Song 等

  • 論文連結:https://arxiv.org/pdf/1904.04449.pdf

摘要:由於傳統的高精度影片顯著區域檢測模型往往對計算能力和儲存能力有較高要求,處理速度較慢,造成了資源的浪費。因此,影片顯著區域檢測需要解決如下兩個問題:1)如何降低模型的計算量和儲存空間需求,提高處理效率?2)如何從影片中提取有效時空聯合特徵,避免準確率下降?針對這些問題,來自北航、愛奇藝等機構的研究者提出了耦合知識蒸餾的輕量級影片顯著區域檢測方法。輕量級影片顯著區域檢測的難點在於模型泛化能力不足,時域空域線索結合難,影響方法的檢測效能。
研究者提出了一種輕量級的網路架構 UVA-Net,並利用耦合知識蒸餾的訓練方法提高影片顯著區域檢測效能。這種輕量級的網路架構在影片注意力預測方向的效能可與 11 個最新模型相媲美,而其儲存空間僅佔用 0.68 MB,在 GPU,CPU 上的速度分別達到 10,106FPS,404FPS,比之前的模型提升了 206 倍。

7 Papers & Radios | 史丹佛學者造出「機器鴿」

本文提出的耦合知識蒸餾方法的總體架構圖,包含空間教師流、時序教師、學生流和時空流。訓練分為兩步:知識蒸餾和時空聯合最佳化。

7 Papers & Radios | 史丹佛學者造出「機器鴿」

MobileNet V2 卷積塊和 CA-Res 卷積塊詳細流程圖。

7 Papers & Radios | 史丹佛學者造出「機器鴿」

本文提出的網路架構與其他 6 種控制變數模型在 AVS1K 資料集上的各指標結果對比。

推薦:基於耦合知識蒸餾的超高速影片顯著區域檢測演算法與現有的國際高水平方法相比,計算精度與 11 種國際高水平方法相當,並且該技術已經應用到愛奇藝圖片搜尋、影片素材檢索等方向,對愛奇藝很多業務具有啟發意義。

論文 3:DeepShift: Towards Multiplication-Less Neural Networks
  • 作者:Mostafa Elhoushi、Farhan Shafiq、Ye Henry Tian 等

  • 論文連結:https://arxiv.org/pdf/1905.13298.pdf


摘要:深度學習模型,尤其是深度卷積神經網路(DCNN),在多個計算機視覺應用中獲得很高的準確率。但是,在移動環境中部署時,高昂的計算成本和巨大的耗電量成為主要瓶頸。而大量使用乘法的卷積層和全連線層正是計算成本的主要貢獻者。

華為的這篇論文提出瞭解決該問題的新方法,即引入兩種新型運算:卷積移位(convolutional shift)和全連線移位(fully-connected shift),從而用按位移位(bitwise shift)和按位取反(bitwise negation)來取代乘法。使用了卷積移位和全連線移位的神經網路架構族即 DeepShift 模型。DeepShift 模型可以在不使用乘法的情況下實現,且在 CIFAR10 資料集上獲得了高達 93.6% 的準確率,在 ImageNet 資料集上獲得了 70.9%/90.13% 的 Top-1/Top-5 準確率

研究者將多種著名 CNN 架構的卷積層和全連線層分別進行卷積移位和全連線移位轉換,並進行了大量實驗。實驗結果表明,有些模型的 Top-1 準確率下降程度低於 4%,Top-5 準確率下降程度低於 1.5%。

7 Papers & Radios | 史丹佛學者造出「機器鴿」

模型在 MNIST 驗證集上的準確率。

7 Papers & Radios | 史丹佛學者造出「機器鴿」

模型在 CIFAR10 驗證集上的評估結果。

7 Papers & Radios | 史丹佛學者造出「機器鴿」

模型在 ImageNet 資料集上的結果。

推薦:機器之心之前報導過北大、華為諾亞等合著的一篇論文,探討了不用乘法用加法能不能做深度學習。最近,我們又看到華為的另一篇論文,這次沒有用加法替代乘法,而是用「按位移位」和「按位取反」來取代乘法運算。

論文 4:Pose-Assisted Multi-Camera Collaboration for Active Object Tracking
  • 作者:Jing Li、Jing Xu、Fangwei Zhong 等

  • 論文連結:https://arxiv.org/abs/2001.05161

摘要:對相機進行智慧控制從而實現目標追蹤是一項非常具有挑戰性的任務。由於環境的複雜性,相機所接收到的視覺資訊常常是不完美的,比如環境中存在的障礙物對目標極容易造成遮擋,目標距離遠的情況下形態變得不夠清晰,相似的背景容易導致目標的混淆等等。傳統的方法只靠視覺資訊做追蹤,在視覺資訊質量不夠高的情況下很容易導致相機追蹤的失敗。

因此在本文中,來自北大、上交等機構的研究者提出引入相機姿態的多相機協同合作機制進行監控場景下的目標追蹤。透過對比不同測試環境上的實驗結果,本文證實了這種合作機制的有效性和可擴充性。

7 Papers & Radios | 史丹佛學者造出「機器鴿」

文中多相機協同追蹤系統演示圖。

7 Papers & Radios | 史丹佛學者造出「機器鴿」多相機協同追蹤系統架構圖。

7 Papers & Radios | 史丹佛學者造出「機器鴿」

3D 園林和城市環境中的實驗對比結果。

推薦:對於監控場景下的多相機主動追蹤任務,本文提出的這種多相機協同追蹤系統可以在視覺資訊不完善的情況下保證追蹤效能,得出了優於以往方法的結果。在全新測試環境(Garden/UrbanCity)上的結果展示了本文方法可以有效地擴充到更多場景

論文 5:Soft biohybrid morphing wings with feathers underactuated by wrist and finger motion
  • 作者:Eric Chang、Laura Y. Matloff、Amanda K. Stowers、David Lentink

  • 論文連結:https://robotics.sciencemag.org/content/5/38/eaay1246

摘要:千百年來,人類從未停止過追求如鳥類一般自由飛翔。憑藉著一對靈活的羽毛翅膀,鳥類可以在天空中飛行,飛越海洋和大陸。一百多年前,人類受鳥類啟發發明了飛機,依靠堅硬的機翼和螺旋槳來飛向既定的方向。但傳統機翼的缺陷也很明顯:它既會給你想要的升力,也會產生你不需要的阻力。飛機誕生之後,人類仍然在追求對鳥類飛行進行更精確的模擬。

近日,《Science》和《Science Robotics》雜誌分別刊登了來自史丹佛大學的兩篇論文,在這兩項研究中,研究者揭示了鳥類是如何透過調整翅膀形狀來控制飛行的。他們為一個叫做「PigeonBot」的飛行機器人裝上一款半生物半機械的「可變形翅膀」

7 Papers & Radios | 史丹佛學者造出「機器鴿」

史丹佛大學研究者研發的人造翅膀。

7 Papers & Radios | 史丹佛學者造出「機器鴿」

鴿子機器人羽翼主體包含四部分:肱骨、橈骨、尺骨和前肢。

7 Papers & Radios | 史丹佛學者造出「機器鴿」

鴿子機器人整體羽翼架構包含一個螺旋槳驅動的儀表板和一個欠驅動的真實羽毛變形翼。

推薦:研究團隊稱,這款鴿子機器人的機動性更強,並且也能夠承受更高的風速。目前,PigeonBot 只是一款原型。這項研究對於改進現有飛行器的機翼設計非常有啟發意義

論文 6:AutoCompress: An Automatic DNN Structured Pruning Framework for Ultra-High Compression Rates
  • 作者:Ning Liu、Xiaolong Ma、Zhiyuan Xu 等

  • 論文連結:https://arxiv.org/abs/1907.03141


摘要:近年來,隨著深度神經網路模型效能不斷重新整理,模型的骨幹網路引數量愈發龐大,儲存和計算代價不斷提高,從而導致難以部署在資源受限的嵌入式平臺上。

滴滴 AI Labs 與美國東北大學王言治教授研究組合作,聯合提出了一種基於 AutoML 思想的自動結構化剪枝的演算法框架 AutoCompress,能自動化的去尋找深度模型剪枝中的超引數,去除模型中不同層的引數冗餘,替代人工設計的過程並實現了超高的壓縮倍率。從而滿足嵌入式端上執行深度模型的實時效能需求。
7 Papers & Radios | 史丹佛學者造出「機器鴿」
文中 AutoCompress 框架示意圖。

7 Papers & Radios | 史丹佛學者造出「機器鴿」

在 VGG-16 上基於 CIFAR-10 資料集的權重剪枝對比結果。

7 Papers & Radios | 史丹佛學者造出「機器鴿」

在 ResNet-18 (NISP 和 AMC 結果為 ResNet-50) 上基於 CIFAR-10 資料集的權重剪枝對比結果。

推薦:與其他方法相比,AutoCompress 的效果超過各種神經網路壓縮方法與框架。這一研究使得高效率,高精度地獲取深度神經網路高壓縮率模型成為可能,並且得到的高效神經網路模型可以在嵌入式移動系統中實現實時推理運算。

論文 7:Escaping from saddle points on Riemannian manifolds
  • 作者:Yue Sun、Nicolas Flammarion、Maryam Fazel

  • 論文連結:https://arxiv.org/pdf/1906.07355.pdf


摘要:「最佳化」通常指將函式最大化或最小化,而函式的集合通常表示遵循約束條件的可選擇範圍。我們可以對比集合內不同的函式選擇,來確定哪個函式是「最優」的。另一方面,學習是模型迭代地學習最小化某個誤差函式或者最大化某個獎勵函式的過程。拿用於分類任務的簡單線性迴歸為例,誤差函式是模型輸出和資料真值輸出之間的均方差,學習過程即找出線性函式 y = a^Tx + b 的係數 a_i 和 b_i,以最小化 y(模型輸出)和 y(真值輸出)間的誤差。

例如,學習(即最佳化)通常使用梯度下降演算法透過反向傳播來迭代進行。在每一次迭代中,係數 a_i 和 b_i 都是(所有可能 a_i 和 b_i 值集合中的)一個選擇,演算法將學習到能夠最小化誤差函式的下一組係數。因此,模型的學習過程歸根結底還是最佳化問題

本文則深入探索了最佳化問題的細節,這對理解機器學習的底層數學知識非常重要。
7 Papers & Radios | 史丹佛學者造出「機器鴿」
演算法 1:擾動黎曼梯度下降演算法。

7 Papers & Radios | 史丹佛學者造出「機器鴿」

論文作出了多項假設,前兩個假設關於 f,最後一個假設關於 M。

推薦:該論文研究了受限最佳化問題,即對滿足多個流形約束條件和一些關於 f(x) 假設的函式 f(x) 執行最小化。該研究證明,只要函式和流形具備恰當的平滑度,則擾動黎曼梯度下降演算法能夠避開鞍點

ArXiv Weekly Radiostation

機器之心聯合由楚航、羅若天發起的ArXiv Weekly Radiostation,在 7 Papers 的基礎上,精選本週更多重要論文,包括NLP、CV、ML領域各10篇精選,並提供音訊形式的論文摘要簡介,詳情請見微信:

10 NLP Papers00:0020:18
本週 10 篇 NLP 精選論文是:
1. Joint Reasoning for Multi-Faceted Commonsense Knowledge. (from Gerhard Weikum)
2. A Knowledge-Enhanced Pretraining Model for Commonsense Story Generation. (from Minlie Huang)
3. Bi-Decoder Augmented Network for Neural Machine Translation. (from Yueting Zhuang, Deng Cai)
4. FGN: Fusion Glyph Network for Chinese Named Entity Recognition. (from Zhenyu Xuan)
5. Language Models Are An Effective Patient Representation Learning Technique For Electronic Health Record Data. (from Nigam H. Shah)
6. Robust Speaker Recognition Using Speech Enhancement And Attention Model. (from Thomas Hain)
7. ProphetNet: Predicting Future N-gram for Sequence-to-Sequence Pre-training. (from Ruofei Zhang)
8. Lexical Sememe Prediction using Dictionary Definitions by Capturing Local Semantic Correspondence. (from Maosong Sun)
9. CLUENER2020: Fine-grained Name Entity Recognition for Chinese. (from Cong Yu)
10. Learning to Multi-Task Learn for Better Neural Machine Translation. (from Gholamreza Haffari)


10 CV Papers00:0021:06

本週 10 篇 CV 精選論文是:

1. 180-degree Outpainting from a Single Image. (from Alan Bovik)
2. Learning multiview 3D point cloud registration. (from Leonidas J. Guibas)
3. Visual Question Answering on 360{\deg} Images. (from Ming-Hsuan Yang)
4. CrDoCo: Pixel-level Domain Transfer with Cross-Domain Consistency. (from Ming-Hsuan Yang)
5. Learning Transformation-Aware Embeddings for Image Forensics. (from Kevin Bowyer)
6. Video Coding for Machines: A Paradigm of Collaborative Compression and Intelligent Analytics. (from Wen Gao)
7. Single Image Dehazing Using Ranking Convolutional Neural Network. (from Jia Li, Xiaogang Wang)
8. Few-shot Action Recognition via Improved Attention with Self-supervision. (from Philip H. S. Torr)
9. Rethinking Class Relations: Absolute-relative Few-shot Learning. (from Philip H. S. Torr)
10. Unifying Training and Inference for Panoptic Segmentation. (from Philip H.S. Torr)


10 ML Papers00:0018:10
本週 10 篇 ML 精選論文是:
1. Smart Data based Ensemble for Imbalanced Big Data Classification. (from Salvador García, Francisco Herrera)
2. Symplectic networks: Intrinsic structure-preserving networks for identifying Hamiltonian systems. (from George Em Karniadakis)
3. Lipschitz Lifelong Reinforcement Learning. (from Michael L. Littman)
4. Stochastic Recursive Gradient Descent Ascent for Stochastic Nonconvex-Strongly-Concave Minimax Problems. (from Tong Zhang)
5. On the Convex Behavior of Deep Neural Networks in Relation to the Layers' Width. (from Lior Wolf)
6. Unsupervised Learning of the Set of Local Maxima. (from Lior Wolf)
7. A Formal Approach to Explainability. (from Lior Wolf)
8. Disentanglement by Nonlinear ICA with General Incompressible-flow Networks (GIN). (from Carsten Rother)
9. HumBug Zooniverse: a crowd-sourced acoustic mosquito dataset. (from Stephen Roberts)
10. Autoencoding undirected molecular graphs with neural networks. (from Jeppe Johan Waarkjær Olsen)

相關文章