人工智慧作為最具顛覆性和變革性的技術之一,正以不可阻擋之勢席捲全球,不斷滲透進社會生產生活的各個方面,推動著時代滾滾向前。但需知,從底層框架的更新迭代到整套解決方案的商業化落地都有賴於基礎學術研究的進展與突破,無論新理論的提出抑或舊問題的攻克,都令這股力量更強大——它是AI浪潮湧動的原動力,是預知未來的風向標。
“智見AI”SpringCamp學術訓練營由CCF-CV發起,曠視與清華大學承辦,旨在打造一個交流分享最前沿人工智慧領域思想和技術的平臺,通過邀請頂尖大咖分享最新的研究成果,聯合產業界與學術界,為各大高校的青年學術人才以及行業相關研究人員提供前沿技術交流與學習的機會,促進AI人才的培養、推動技術的進步及產學研的落地。
會聚前沿年青骨幹 呈現關鍵研究新進展
出席本次訓練營的主要嘉賓有:
微軟亞洲研究院、計算機視覺組資深研究員 代季峰博士
中科院自動化所 張士峰博士
曠視研究院Base Model組負責人 張祥雨博士
華中科技大學電信學院教授、副院長 白翔
Momenta高階研發工程師 胡杰
曠視研究院Detection組負責人 俞剛博士
清華大學自動化系助理教授 黃高
南開大學教授 程明明
活動吸引到了300餘名來自人工智慧領域學術界與產業界的研究人員與相關從業者參與,內容涵蓋8場權威主題報告,1個開放式圓桌討論。
曠視首席科學家、研究院院長孫劍首先在開幕致辭中對所有與會嘉賓表示歡迎,並簡要闡述了當前計算機視覺技術發展現狀與舉辦本次學術交流會的目的。隨著深度學習的引入與應用,業內出現了新的機遇與挑戰,如何取得新突破一方面有賴於學術界的努力,另一方面,面對理論困難與應用需求的雙重夾擊,產業研究中AI技術與行業的深度融合同樣能夠提供新視角。因此,在這樣的背景下,人們需要“分享各種新的方法和新的思想,深入理解問題、深刻弄清每個細節,向前一步步推動計算機視覺理論與應用的發展”。
隨後8位專家先後做出分享,內容涵蓋當前在“物體檢測”與“深度神經網路模型設計”領域最火熱的深度神經網路中的幾何形變建模技術、物體檢測演算法的對比探索及展望、高效輕量級深度模型的研究與實踐、面向快速推理的卷積神經網路、不規則文字檢測與識別、視覺注意力機制在模式設計中的發展與應用、目標檢測領域的新問題及方向、開放環境下的自適應視覺感知等方向。
活動現場精彩報告
代季峰
報告題目:卷積神經網路中的幾何形變建模
內容大綱:
在視覺識別任務中,一個重要的挑戰是如何恰當處理和建模幾何形變,包括尺度、姿態、視角以及物體部件的移動等。從特徵工程的時代開始,一系列著名的演算法就被開發出來以嘗試解決這個問題,包括SIFT,DPM等。但受限於它們的特徵表達能力和侷限的變性建模能力,其效能受到了很多的限制。在深度學習的時代,網路特徵的表達能力大大的超出了之前手工設計的特徵。但是,現有的網路模組依然難以對幾何形變進行有效的處理和建模。本次talk中將會介紹在深度神經網路中的幾何形變建模技術,它們能夠大幅度的增強深度神經網路的幾何建模能力,在各種識別任務中取得巨大的效能提升。
張士峰
報告題目:物體檢測演算法的對比探索以及展望
內容大綱:
目前基於深度學習的物體檢測演算法大致可以分為兩類:一步法檢測器和二步法檢測器。一步法檢測器有較高的檢測速度,但檢測精度不如二步法檢測器。而二步法檢測有較高的檢測精度,但檢測效率不如一步法檢測器。為了使得一步法檢測器獲得二步法檢測器的檢測精度,同時保持較高的檢測效率,我們對一步法和二步法檢測器進行了一系列探索,提出了RefineDet、SRN、ISRN、RetinaFace等系列演算法。此次分享將先概括地介紹物體檢測演算法,接著分享我們自己一系列相關的工作,最後對物體檢測的發展進行討論展望。
張祥雨
報告題目:高效輕量級深度模型的研究與實踐
內容大綱:
深度基礎模型在現代深度視覺系統中居於核心地位。在實際應用中,受應用場景、目標任務、硬體平臺等的不同,經常會對模型的執行速度、儲存大小、運算功耗等進行限制。因此,如何針對各種不同的情景設計“又好又快”的模型,成為深度學習系統實用化的重要課題。
本次講座主要圍繞實用模型設計的兩個常用技術:輕量級模型設計和模型裁剪,重點介紹本團隊在高效深度模型領域的科研成果和實踐經驗。分享內容包括ShuffleNet v1/v2系列,以及自動化模型設計、模型搜尋等最新研究成果。
白翔
報告題目:不規則文字檢測與識別
內容大綱:
場景OCR技術是一種通用的文字識別技術,已經在工業界產生了廣泛的落地。近年來,學術界開始將注意力轉向不規則文字的檢測與識別技術研究。本次報告介紹了針對不規則文字檢測與識別一些代表性方法,例如ASTER,Mask Textspotter,TextField等機近期成果,這些方法在不規則文字檢測與識別任務中取得了顯著的效能提升。
胡杰
報告題目:視覺注意力機制在模式設計中的發展與應用
內容大綱:
機器學習中的注意力模型通過模擬人類視覺的注意力機制,從而在大量資訊中篩選和聚焦對任務重要的資訊,減少來自不重要資訊和噪聲的干擾。近年來,注意力機制被引入計算機視覺、自然語言處理等諸多領域,並在不同任務上取得顯著的效能提升。本次報告將圍繞注意力機制在計算機視覺的應用,概括總結如何在神經網路(尤其是卷積神經網路)中結合注意力機制增強網路表達能力,從而實現有效提升系統效能的目標。
俞剛
報告題目:Beyond RetinaNet and Mask R-CNN
內容大綱:
物體檢測是計算機視覺中一個非常重要但同時也是很基礎的技術環節。在RetinaNet以及Mask RCNN出現之後,物體檢測領域在框架上面已經比較成熟,但是從技術落地角度來考慮,還有很多細節問題需要攻克。本報告將從六個維度分別來展開目標檢測領域的一些新的問題以及方向。具體來講,這六個方向是Backbone, Head, Scale variation, Batch size, Crowd,pretraining。這些技術點的攻破以及成果,會對物體檢測領域的實際落地會有很大推動作用。
黃高
報告題目:面向快速推理的卷積神經網路結構設計
內容大綱:
近幾年,隨著深度學習從實驗室走向越來越多的實際應用,人們對模型的關注不僅僅在其精度方面,同時也對計算和儲存效率提出了更高的要求。在提升模型效率的諸多手段中,神經網路結構創新始終是最為有效的方式之一。本報告將簡單回顧卷積神經網路的幾種典型結構,分析有助於提升模型效率的設計技巧與原則。與結構設計密切相關的,還有神經網路的推理方法。報告將從自適應推理的角度,介紹如何通過合理的結構設計,使模型能夠針對不同的樣本分配相應的計算量,達到降低平均計算開銷的目的。
程明明
報告題目:開放環境下的自適應視覺感知
內容大綱:
現有視覺學習技術通常依賴於大規模精確標註的訓練資料。在典型實驗室環境下設計和訓練的人工智慧模型,在行業應用場景變換時,容易導致系統效能急劇下降。本報告將從弱監督視覺理解的角度,介紹在降低模型對特定應用場景資料依賴方面所開展的一些研究工作,主要包括如何學習一些通用屬性,並利用這些通用屬性構建弱監督檢測與分割模型。
結語
作為一個理論與應用實踐高度結合的科學研究領域,人工智慧的形象從其誕生時代小說家筆下的神祕形象逐漸具象化,滲透進社會生活、生產的方方面面。它早已不囿於實驗室的理想環境、拘泥於競賽的排行榜,而是在為各行各業的先行者們創造實際的商業價值和社會價值,成為創新與變革的助推引擎。本次SpringCamp的順利舉辦是曠視對自身產學研體系建設新模式的有益探索,也是作為產業界代表反哺學術界的又一次成功嘗試,對推動學術界與產業界的良性交流具有重要意義。
傳送門1
下附本次活動完整視訊連結:https://ai.yanxishe.com/page/openCourse/50?from=megvii