場景化封裝,一站式使用,普惠AI整合 ——阿里雲釋出智慧媒體管理產品

貓耳發表於2018-01-09

摘要:

導語 近日,阿里雲釋出了智慧媒體管理(Intelligent Media Management)服務, 通過離線處理能力關聯授權的雲端儲存,提供便捷的海量多媒體資料一鍵分析,並通過該分析過程構建價值後設資料,更好支撐內容檢索。

導語

近日,阿里雲釋出了智慧媒體管理(Intelligent Media Management)服務, 通過離線處理能力關聯授權的雲端儲存,提供便捷的海量多媒體資料一鍵分析,並通過該分析過程構建價值後設資料,更好支撐內容檢索。

背景介紹

隨著智慧手機的普及、無人機的流行,業界產生了海量的圖片、視訊等多媒體資料;同時,網路也在飛速發展,特別是4G的推廣,讓這些資料的儲存、分享發生了巨大的變化,從而也帶來了媒體資料各行業的新趨勢。我們親身體驗到通訊方式從簡訊變成語音,瀏覽內容從文字變成圖片、從JPG靜態圖片變成GIF動態圖片、再到短視訊;從去年開始,直播也火熱起來,成為一種流行的時尚。這些迅速的變化趨勢,反應了一個共同的特點,就是“互動的資訊量越豐富、越實時,使用者越容易被吸引,越會產生新的價值”。

場景化封裝,一站式使用,普惠AI整合 ——阿里雲釋出智慧媒體管理產品

如圖中所示行業,都在利用最新的人工智慧(Artificial Intelligence, AI)技術產生新的價值,同時也引入新的需求:

手機相簿。它早已不是簡單的圖片備份,iOS通過AI構建人臉相簿、場景標籤、編輯應用,變成吸引客戶的亮點,成為新的基線。視訊監控。它不再只是記錄取證工具,而是利用AI發展為智慧城市,變成了智慧的眼睛,要管理整個城市的交通訊息。直播應用。個人分享已不僅僅是部落格、微博的文字形式,更是轉變為快速直觀的視訊模式,這背後需要更高、更快的直播內容理解、稽核需求。

資料處理場景需求

對於圖片分享社群應用場景,最基本的功能是提供備份、分享,但這並不能帶來更多的價值。只有提供更多的圖片處理能力,比如主體剪裁、人臉識別、濾鏡功能、風格渲染、視訊合成等資料處理功能,如下圖所示。這些亮點將為使用者帶來“生活不止眼前的苟且,還有依然在你身邊的美好”回憶,從而讓應用更具吸引力。

場景化封裝,一站式使用,普惠AI整合 ——阿里雲釋出智慧媒體管理產品

內容檢索場景需求

如今的綜藝節目非常火爆,例如跑男、極限挑戰等,每期拍攝的素材量千倍於實際播出量;要在這海量素材中快速掃描、找到爆點,需要相當大的工作量,例如當前的人肉檢索低效率方式需要處理幾周的時間。如果能夠基於AI分析語音、人物、場景得到結構化資訊,並索引管理起來,支撐更好的檢索,它將會大大的提高素材的處理效率。

同樣,線上教育等領域,對於老師、演講者的材料、語音、視訊內容,如果能夠提供快速的解析索引能力,那麼它將給學習者提供便捷的專場內容描述、快速定位關鍵術語、演講筆記同步提取等亮點。

場景化封裝,一站式使用,普惠AI整合 ——阿里雲釋出智慧媒體管理產品

客戶痛點分析

要滿足上述場景需求,當前應用架構設計時,需要選型不同資料處理功能的廠家(包括AI廠家)進行整合、或者自研開發,對於內容檢索,還需要分析場景細節需求,引入資料庫設計和開發。這都需要很好的技術能力,以及開發團隊的支撐,並解決如下的痛點。

多廠家管理痛點

場景化封裝,一站式使用,普惠AI整合 ——阿里雲釋出智慧媒體管理產品

圖片應用將資料儲存到雲端儲存後,要選擇不同廠家的AI分析能力,支撐業務和監管的需求。應用通常會在雲伺服器(Elastic Compute Service,ECS)上部署AI廠家的軟體包,或者直接呼叫AI廠家提供的服務,但需要解決如下問題:

介面不統一。因為存在多廠家的選型,需要考慮不同廠家介面的相容性。資源浪費。同一張圖片會被多次讀取,甚至是傳輸到外部網路,浪費網路頻寬,提高使用成本。無存量資料的低成本批量處理方案。採用廠商的同步處理價格高昂,需要提供存量資料的低成本批量處理方案,接受非同步介面返回檢測結果(比如針對存量的OSS桶裡面的所有圖片,進行批量鑑黃)。

複雜後設資料管理痛點

場景化封裝,一站式使用,普惠AI整合 ——阿里雲釋出智慧媒體管理產品

智慧網盤通過自己的使用者鑑權服務允許客戶登入,然後採用基礎資料管理把圖片、視訊上傳到雲端儲存OSS中。為了提供人臉分組、標籤分組等搜尋功能,需要提供各類後設資料管理,定義基於場景的表格式、處理資料庫的異常,它將帶來如下的開發難度:

後設資料表設計難度大。針對不同的後設資料,需要分類設計各類表結構儲存,有相當的技術門檻。多維度後設資料管理有挑戰。需要組合多種後設資料,進行多維度查詢處理,存在設計挑戰。維護後設資料的的一致性難題。解決這些後設資料在異常場景下的異常處理,是系統級難題。

設計目標

場景化封裝,一站式使用,普惠AI整合 ——阿里雲釋出智慧媒體管理產品

通過上述的場景和痛點分析,智慧媒體管理(IMM)服務提取了6個關鍵點作為設計目標:

海量資料,支撐雲端儲存上的海量資料處理。端雲拉通,能夠讓端和雲進行有效的協作。場景結合,基於場景構建後設資料管理便於快速接入。一鍵處理,簡化配置和使用、提高系統易用性。智慧分析,引入業界領先的處理能力,特別是AI能力。標準統一,訪問介面統一為阿里雲的標準。

功能描述

場景化封裝,一站式使用,普惠AI整合 ——阿里雲釋出智慧媒體管理產品

對於雲端儲存上的海量資料,通過授權訪問的安全設計,讓資料處理分析服務能夠有許可權訪問資料,在此之上構建資料智慧處理框架,該框架針對離線處理優化設計,同時支援實時處理能力。基於該處理框架,引入了業界領先的資料處理能力,包括各種AI能力。利用離線處理能力關聯授權的雲端儲存,可以提供便捷的存量資料一鍵分析,通過該分析過程構建價值後設資料,支撐更好的內容檢索。通過這樣的設計,從而提供如下功能:

普惠AI演算法,提供豐富功能。人臉分組、圖片打標、版權、鑑黃等能力。價值後設資料,為客戶帶來新的增長點。整合價值後設資料,提供智慧分析搜尋。OFFICE文件處理,簡化客戶使用。提供典型的OFFICE檔案格式轉換,便於移動裝置瀏覽辦公文件。場景化、一鍵式處理,提高易用性。基於場景模版,結合實時、離線處理引擎,一鍵生成網盤關鍵後設資料。

架構介紹

場景化封裝,一站式使用,普惠AI整合 ——阿里雲釋出智慧媒體管理產品

如圖是IMM服務的架構依賴上下文,服務本身的架構分為2層:處理引擎、後設資料索引。

架構依賴上下文

對下依賴阿里雲的物件儲存、檔案儲存等服務,通過安全的機制訪問裡面儲存的非結構化資料(例如圖片、視訊),提取價值資訊。對上依賴場景理解,進行封裝,支撐視訊網盤、手機相簿、社交相簿、家庭監控等圖片、視訊應用場景,為它們產生新的價值。

處理引擎層

基於阿里雲端儲存,就近構建計算框架,該框架支援批量非同步處理、準實時同步處理,在一鍵關聯雲端儲存(例如,指定Bucket的目錄字首、指定Bucket的某個物件)後,實現快速的自動資料處理,通過整合業界領先的資料處理演算法,處理引擎提供如下功能。

OFFICE文件格式轉換。支援將OFFICE文件轉換為JPG圖片格式,從而更好的支援網盤的文件預覽功能。大圖處理。支援將超大的圖片進行切割、縮放處理,友好的支撐相簿、相簿場景的精細看圖功能。標籤檢測。通過人工智慧技術,識別圖片、視訊中的物品標籤,從而實現機器的制動打標,更好的支撐推薦應用。人臉檢測。通過人工智慧技術,識別圖片、視訊中的人臉,檢測出人臉框,判斷人臉姿勢、年齡、性別等屬性。

後設資料索引層

基於處理引擎提供的功能,通過對場景的深入理解和梳理,IMM封裝了場景的後設資料設計,對外提供場景的後設資料訪問介面,簡化場景應用的設計難度、無須關注後設資料索引資料庫的運維工作,目前支援如下的後設資料索引。

人臉分組索引。構建後設資料集合,然後呼叫人臉分組的介面分析圖片,把得到的後設資料加入到該後設資料集合中,從而可以得到該集合中相似的人臉。通過該索引,可以快速的支撐網盤的人臉相簿、家庭監控的陌生人檢測、甚至新零售的顧客管理等場景。標籤分組索引。構建後設資料集合,然後呼叫標籤分組的索引介面分析圖片,把得到的後設資料加入到該後設資料集合中,從而可以根據標籤搜尋圖片。通過該索引,可以快速的支撐網盤的場景相簿、家庭監控的寵物跟蹤、甚至暴力、恐怖、色情圖片等標籤的搜尋。

排程框架

場景化封裝,一站式使用,普惠AI整合 ——阿里雲釋出智慧媒體管理產品

IMM的所有資料處理請求都在排程框架下執行,例如上述架構中提到的處理引擎層、後設資料索引層請求,它由2部分組成:

執行例項(Instance)。執行例項是執行指定資料處理功能的節點,例如執行圖片打標功能的節點。它可以是虛擬機器、或者Docker,能夠採用預留型別、或者Spot競價型別的例項,支援部署在阿里雲的VPC(Virtual Private Cloud)環境,保證資料處理功能的安全性、隔離性。排程控制器(Schedule Controller)。排程控制器負責把IMM接收到的請求分發到指定功能的例項上,它支援接收同步、非同步的請求,提供準實時、離線的排程。針對負載的變化,實現了例項資源池的彈性伸縮、故障處理、自動升級等能力。

當排程框架收到同步的請求時,例如DetectTag進行圖片打標分析時。排程框架將會把請求分發到請求佇列的Pipeline,然後根據後端例項的節點狀態、負載情況快速轉發請求,從而達到準實時排程的能力。為了保證請求的低時延,以及請求的成功率,通常選擇預留的例項。

當排程框架收到非同步的請求時,例如CreateTagJob指定OSS的桶、字首進行批量的圖片打標分析時。排程框架將會把請求放到排程器,排程器遍歷OSS桶、字首的物件,然後生成單個物件的資料處理請求並分發到多個請求佇列中,再根據後端例項的節點狀態、負載情況快速向多個例項轉發請求,從而達到離線排程的能力。為了保證離線排程的成本,通常選擇Spot型別的競價例項。

通過上述排程控制和資料處理分離的架構,排程框架提供如下亮點:

準實時、離線排程。針對離線處理價效比競爭力的優化設計下,也能提供準實時能力,實現資料處理的閉環。同步、非同步請求。支撐一鍵式的非同步處理需求同時,還提供了同步請求的靈活性。資料處理能力的安全性。利用VPC部署資料處理的例項,保證了資源的隔離、安全的遮蔽。

如何使用

IMM提供控制檯操作和API介面,通過控制檯快速的建立IMM的專案,然後體驗IMM的資料處理功能。

控制檯使用

場景化封裝,一站式使用,普惠AI整合 ——阿里雲釋出智慧媒體管理產品

登入阿里雲控制檯,執行如下操作:

第一步,開通智慧媒體管理服務。開通後,即可使用IMM提供的功能。第二步,建立專案。使用IMM必須要建立專案,它是IMM資源管理、計費的基本單元。

場景化封裝,一站式使用,普惠AI整合 ——阿里雲釋出智慧媒體管理產品

建立了專案,就可以體驗IMM支援的功能:

格式預覽。支援OFFICE文件轉換,並用圖片方式預覽。人臉檢測。檢測照片中的人臉,識別年齡、性別,眼部狀態資訊。圖片打標。檢測圖片包含的標籤資訊,以及置信度值。

詳細的控制檯使用介紹,請參考IMM快速開始。

API使用

IMM的API呼叫方法

呼叫IMM的API需要遵守阿里雲的API規範,請參考IMM API呼叫,請您注意呼叫時的引數,特別是簽名。

如下是IMM典型功能的API呼叫示例。

檔案格式轉換CreateFormatConvertJob

POST https://imm.cn-shanghai.aliyuncs.com?Action=CreateFormatConvertJob
&Project=test
&SrcUri="oss://bucket1/test.pptx"
&TgtType=jpg
&TgtUri="oss://bucket1/imm-format-convert-tgt/session123/"
&ExternalID=aaa

該功能介面的詳細資訊,請參考CreateFormatConvertJob。

圖片打標DetectTag

POST https://imm.cn-shanghai.aliyuncs.com?Action=DetectTag
&Project=test
&SrcUri=["oss://bucket1/1.jpg"]

該功能介面的詳細資訊,請參考DetectTag。

人臉檢測DetectFace

POST https://imm.cn-shanghai.aliyuncs.com?Action=DetectFace
&Project=test
&SrcUri=["oss://bucket1/A.jpg"]

該功能介面的詳細資訊,請參考DetectFace。

批量鑑黃CreatePornBatchDetectJob

POST https://imm.cn-hangzhou.aliyuncs.com?Action=CreatePornBatchDetectJob
&Project=test
&SrcUri="oss://bucket/prefix"
&TgtUri="oss://bucket/imm-porn-batch-tgt/session1"

該功能介面的詳細資訊,請參考CreatePornBatchDetectJob。

立即體驗

現在產品已經在阿里雲官網正式開始公測,點選這裡立即體驗

後續規劃

下一階段,IMM將和OSS整合拉通:

在OSS控制檯整合IMM功能。實現OFFICE文件的預覽,媒體物件的AI功能。在OSS提供存量資料的IMM處理對接。可以通過OSS的控制檯,選擇某個桶或者其目錄,呼叫IMM的批量非同步任務,例如批量鑑黃,從而享受高價效比、便捷的資料處理。在OSS的API中拉通。呼叫oss的x-oss-process處理引擎時,呼叫到IMM的API進行處理。

通過這樣端的端的整合,從而讓您在雲上的管理更加易用。

點選檢視原文

相關文章