面向視訊的全新AI架構 —— 阿里雲智慧視覺技術全解

芊寶寶發表於2019-04-02

我們都知道,AI技術正在以可見的速度被應用於各行各業,然而絕大部分業務場景想應用AI技術,都需要演算法工程師根據自身業務的標註資料,來進行單獨訓練,才能打磨出合適的AI模型。如此一來,如何以最低的門檻和成本,實現AI技術落地變成了行業急需解決的問題。

市場上的AI服務非常多,但是在視覺領域,通用的AI服務主要是基於影象的架構來做的,視訊時代已經到來,基於影象的AI架構是否還能被廣泛應用?阿里雲視訊雲團隊專注於視訊領域,所以在針對視訊的AI處理方面也有獨特的思考和實踐。3月27日下午,第51期阿里雲產品釋出會-智慧視覺產品隆重發布,阿里雲高階計算專場周源針對影象和視訊的AI處理有什麼不同?團隊是如何基於視訊構建全新的AI架構?針對AI大量的資料、訓練效果不夠好、時間與成本消耗大等痛點,他們如何解決等以上問題做了悉數解答。

一、市場上通用的影象架構是怎樣的?

市場上大部分AI的服務,輸入的都是影象,也就是圖片檔案,是基於圖片進行處理。在業界,影象的演算法比較成熟,數量也較多,從大類來看有影象分類、檢測、識別、分割等等。大部分AI服務的架構也是基本類似,一般包含影象演算法層、引擎框架層、資源管理層、硬體基礎層,之後基於各自的業務領域知識,構建一個面向特定領域的AI推理服務,然後通過API提供對外的訪問。


面向視訊的全新AI架構 —— 阿里雲智慧視覺技術全解


二、挑戰:視訊與影象的不同

隨著現在視訊(直播、點播、短視訊)的越來越廣泛應用,內容從原先的影象分析升級到視訊分析。因為複用已有的技術以及架構的改造成本等等因素,一般的AI服務一般會保持現有的框架,不同是把視訊轉換成影象來進行處理。一般做法是按照固定的時間間隔取樣擷取視訊的影象資訊,這樣整個服務架構不需要做任何改動,只是在最上面一層增加了視訊幀擷取和結果匯聚的服務。


面向視訊的全新AI架構 —— 阿里雲智慧視覺技術全解


當然,這個架構在視訊時代就會存在很多問題:

1. 時效性差

因為增加了視訊截幀和結果匯聚這樣的中間操作,所以處理時間長;視訊下載下來,處理後圖片再上傳,網路傳輸也會導致時效性變差;舉個例子,在相同畫質下,使用一張張圖片組成的視訊,和H.264編碼的視訊,大小的比是10:1,圖片是10倍於視訊的儲存量。

2. 穩定性

視訊截幀一般會採用開源的FFmpeg,如果遇到問題需要解決,比較依賴於開源社群。比如格式和編碼的相容性、直播、點播中遇到資料異常、時間戳不準、定製協議、解析度切換、卡死等。

3. 複雜性高

把視訊轉換成批量的圖片,就需要對這些臨時的圖片進行管理,另外還涉及順序處理、非同步操作、網路抖動等問題,需要關注的非核心業務功能就要求非常多,導致業務系統整體的複雜性變高。

4. 資訊丟失

截幀是一種取樣,會引起資訊丟失,丟失的資訊中很有可能包含了關鍵影象。另外,截幀的處理是對沒有時間資訊的影象結果的簡單累加,效果也不理想。

既然有這麼多問題,基於視訊的AI計算該怎麼做呢?

三、阿里雲解決方案:面向視訊的新架構

周源所在的阿里雲視訊雲團隊,具有多年音視訊編解碼、媒體處理相關技術經驗,他們推出的面向視訊的新架構是:把視訊作為第一類物件(First-Class Object)來看待。把視訊解碼、時間域分析、智慧匯聚、音訊處理等引入到系統裡面來,把視訊處理和AI計算有機結合,以面向視訊的方式,在視訊處理的同時完成AI計算,精簡的流程能夠大幅度縮短處理時間,從時間維度提升分析效果,並能簡化業務架構,讓使用者聚焦在核心業務的發展上。為使用者提供高效穩定、簡單易用、功能豐富的視訊AI服務。


面向視訊的全新AI架構 —— 阿里雲智慧視覺技術全解


新架構具有以下幾個特點:

1. 時效性高

相較於之前多餘的截幀、上傳等一系列操作,新方案不產生臨時圖片,同時能減輕儲存的頻寬和空間需求。能充分利用視訊的並行分片機制,大幅度縮短整體處理時間。

2. 複雜性低

面向視訊的架構,視訊處理和AI計算整合在一起,簡化了對圖片的處理過程,進而簡化整個處理邏輯,降低複雜度。

3. 穩定性高

阿里雲視訊雲團隊是具有10多年豐富視訊處理經驗的專業團隊,相容性、運維各種問題都不需要使用者考慮。

4. 效果更佳

對離散的影象結果按照時間的關係進行更合理的匯聚,獲得更優的效果。

四、AI應用的痛點和解法

周源團隊自研的新架構很好的解決了影象AI架構時效性差、穩定性差、複雜度高、效果不佳的問題。然而在AI的應用上,開發者也會關注到一些其他問題,比如:

  1. 目前,分類演算法有ResNet、Inception、VGG等等,識別演算法有FasterRCNN、SSD、YOLO等等,物體檢測、人臉識別演算法也有很多,那麼如何選擇最適合自己的呢?
  2. 針對自身業務標註資料,需要大量人力投入,同時真實資料少,採集十分困難,通常需要花費非常多的視覺才能夠收集足夠多的資料,怎麼辦?
  3. 每次模型訓練時間長、反饋慢,訓練好的模型更是需要複雜的上線流程,整體業務反饋太慢,怎麼辦?

智慧視覺產品針對關鍵的資料和時間問題,給出瞭如下解法:

1. 選擇最合適的演算法

基於阿里巴巴在視訊和AI領域的長期積累,已經幫大家選擇好了演算法,現在推出的是分類和識別,之後將推出更多演算法。

2. 遷移學習——少量資料快速訓練

遷移學習的基本原理是,根據自然影象中的基礎邊緣、色塊、紋理的規律來歸納物體特徵,並且通過在淺層網路中複用這些基礎特徵,來減少標註資料,能以更快的時間、更高的質量生成業務場景相關資料,大幅度減少資料需求,進一步減少計算量,達到縮短新模型訓練時間的效果,使業務迭代更快。


面向視訊的全新AI架構 —— 阿里雲智慧視覺技術全解


3. 資料增廣——少量資料更優效果

在深度學習層面,在其他條件相同的情況下,資料越多訓練效果是越好的。這就產生了一個問題,更好的效果一定需要更多的資料,這需要花費大量的人力去標註。

智慧視覺採用資料增廣策略,增加資料的多樣性,加強模型泛化能力,對影象進行旋轉、斜切、仿射變換、對比度調整、色度變化、水平映象等變換,增加資料量的同時保持增廣資料的真實性,實現了少量資料情況下效果增強10-15%的訓練效果,同時有效降低標註資料的人力和時間成本。


面向視訊的全新AI架構 —— 阿里雲智慧視覺技術全解


智慧視覺可以幫助零演算法基礎的使用者,快速訓練自己領域的定製化模型,僅需要少量標註資料,完成快速的模型生成、增強的場景效果,並將訓練模型轉換成高可用、彈性可擴充套件的視訊AI服務,讓使用者能夠以最低的成本實現AI技術的落地。


面向視訊的全新AI架構 —— 阿里雲智慧視覺技術全解


目前智慧視覺已經支援影象分類、物體檢測、直播識別等AI能力,可應用在視訊監控、網際網路短視訊內容識別歸類、新零售物件統計、工業質檢、農業養殖、醫療診斷等場景。


原文連結

本文為雲棲社群原創內容,未經允許不得轉載。


相關文章