新一代視訊AI服務 —— 阿里雲智慧視覺重磅釋出

芊寶寶發表於2019-04-02

原文網址 : https://juejin.im/post/5ca3145d6fb9a05e4516ddf7

3月27日下午，第51期阿里雲產品釋出會-智慧視覺產品隆重發布，本次產品釋出會首次面向全網使用者深入的解讀了智慧視覺的前世今生。

行業背景

隨著人工智慧的技術不斷成熟，AI逐漸在各行業內落地。在新零售領域，我們通過物體識別判斷貨品位置和數量；甚至在養豬場，用AI技術檢測養豬的位置及數量等等。然而除了一些非常成熟的基礎感知層AI能力如人臉識別、OCR等可以直接應用，實際上絕大部分場景都需要用業務標註資料來進行單獨訓練的，所以定製化的需求越來越多。每個定製化的模型，都是需要演算法工程師通過大量的自身業務標註資料，經過不斷的演算、測試、訓練，來搭建深度神經網路模型。而實際上傳統企業想要自建訓練模型又將面臨著專業人才十分稀缺、開發落地週期冗長等等困境。

如此一來，如何以最低的成本實現AI技術落地變成了行業急需解決的問題。

新一代視訊AI服務——智慧視覺

近期，阿里雲釋出智慧視覺產品，幫助零機器學習背景、零演算法基礎的企業或者開發者們，實現高質量定製化模型訓練的快速落地，具備影象分類、物體檢測、直播識別等AI能力，可有效應用於視訊監控、網際網路短視訊內容識別歸類、新零售物件統計、工業質檢等場景。

有了智慧視覺，即使零演算法基礎的開發者，都可以進行頁面化一鍵式訓練和預測。通過上傳少量業務資料，快速訓練定製化模型，最快10分鐘完成訓練和部署。

智慧視覺整體的產品架構是：使用者通過物件儲存OSS匯入或本地上傳圖片訓練集，對影象及影象內物體進行標籤管理，實現一鍵訓練（目前已經支援影象分類和物體檢測），標註好之後一鍵生成迭代，生成業務定製專屬模型，並可以通過迭代來不斷完善模型的準召率、精準度，最終以API的形式將模型訓練能力快速輸出應用於業務之中，同時支援對圖片、視訊、直播流、監控流等多種格式的預測。

智慧視覺技術原理

市場上大部分AI的服務是基於圖片進行處理，在面對視訊的時候，通常把視訊按照固定的時間間隔取樣出來，批量擷取畫面並進行結果匯聚。這樣對視訊的處理方式普遍存在時效性差、穩定差、複雜性高、資訊丟失等問題。

基於阿里雲視訊雲團隊多年音視訊編解碼、媒體處理相關技術經驗，智慧視覺構建全新的面向視訊架構：把視訊作為第一類物件（First-Class Object）來看待。把視訊解碼、時間域分析、智慧匯聚、音訊處理等引入到系統裡面來，把視訊處理和AI計算有機結合，以面向視訊的方式，在視訊處理的同時完成AI計算，精簡的流程能夠大幅度縮短處理時間，從時間維度提升分析效果，並能簡化業務架構，讓使用者聚焦在核心業務的發展上。為使用者提供高效穩定、簡單易用、功能豐富的視訊AI服務。

點選閱讀阿里雲高階技術專家周源：《面向視訊的全新AI架構 ——智慧視覺技術全解》全文

智慧視覺產品優勢

一、少量樣本，更高精度

在深度學習層面，在其他條件相同的情況下，資料越多訓練效果是越好的。這就產生了一個問題，更好的效果一定需要更多的資料，這需要花費大量的人力去標註。

智慧視覺採用資料增廣策略，增加資料的多樣性，加強模型泛化能力，對影象進行旋轉、斜切、仿射變換、對比度調整、色度變化、水平映象等變換，增加資料量，同時保持增廣資料的真實性，實現了少量資料情況下效果增強10-15%的訓練效果，同時有效降低標註資料的人力和時間成本。

二、遷移學習，訓練高效

智慧視覺運用遷移學習的技術，根據自然影象中的基礎邊緣、色塊、紋理的規律來歸納物體特徵，並且通過在淺層網路中複用這些基礎特徵，來減少標註資料，能以更快的時間、更高的質量生成業務場景相關資料，大幅度減少資料需求，進一步減少計算量，達到縮短新模型訓練時間的效果。大概規模在100張的圖片，生成模型只需要10分鐘。

三、全面模型效果評估，快速迭代

基於阿里雲視訊雲團隊多年豐富的視訊處理經驗，針對使用者訓練的模型給出專業的、全面的效果評估，同時使用者也可以選擇自己上傳圖片、直播、監控等視訊流輸入進行校驗，如果覺得準確率不夠高的話，還可以再次上傳資料進行再一次訓練，實現快速迭代。

四、全介面化操作，降低人力和時間成本

有了智慧視覺，就意味著原本需要眾多專業AI和演算法工程師才能搭建好的AI模型，現在在控制檯上通過簡單的點選和上傳圖片，甚至完全不需要程式碼，就可以完成了，整個過程操作簡單，從資料、模型到介面，一站式服務，全介面化管理，可以節省大量的人力成本和時間成本，實現快速落地。

如何接入智慧視覺

在釋出會中，智慧視覺的產品經理袁華良為網友演示了從零開始搭建一個訓練模型的整個過程。

第一步，在阿里雲官網智慧視覺產品詳情頁快速瞭解產品資訊，申請開通，審批通過後登入控制檯，按照指引完成開通。

第二步，首次登陸，點選馬上建立模型。

第三步，新增模型，上傳圖片，在圖片中進行標註。為了讓訓練的資料更接近真實效果，建議一個模型至少有2個分類，每個分類的圖片不少於15張。上傳完成後，點選一鍵訓練即可。

第四步，訓練結果返回後，可以看控制檯中看到準確率、召回率、mAP等資料。當訓練結果評估或者校驗結果不理想的時候，可以將新圖片加入訓練集，重新進行標註，進行再一次訓練與模型迭代。

目前控制檯支援本地匯入資料，API介面也支援從OSS、直播流、監控流的資料匯入，點選檢視具體的接入文件詳情。

應用場景

智慧視覺可應用在視訊監控領域，根據監控畫面中的內容，判斷是否為出現違規現象，如出現車輛，打鬥等；同時可以應用在網際網路短視訊領域，基於影象對內容識別歸類，進行精準推送，提升使用者的點選率和觀看體驗；在新零售領域，智慧視覺可以檢測實體店貨架中的貨品擺放位置及數量統計，減少巡檢工作量。同時，在工業質檢、農業養殖、醫療診斷等場景也可以有很好的應用。