摘要:
導語 近日,阿里雲釋出了智慧媒體管理(Intelligent Media Management)服務, 透過離線處理能力關聯授權的雲端儲存,提供便捷的海量多媒體資料一鍵分析,並透過該分析過程構建價值後設資料,更好支撐內容檢索。
導語
近日,阿里雲釋出了智慧媒體管理(Intelligent Media Management)服務, 透過離線處理能力關聯授權的雲端儲存,提供便捷的海量多媒體資料一鍵分析,並透過該分析過程構建價值後設資料,更好支撐內容檢索。
背景介紹
隨著智慧手機的普及、無人機的流行,業界產生了海量的圖片、影片等多媒體資料;同時,網路也在飛速發展,特別是4G的推廣,讓這些資料的儲存、分享發生了巨大的變化,從而也帶來了媒體資料各行業的新趨勢。我們親身體驗到通訊方式從簡訊變成語音,瀏覽內容從文字變成圖片、從JPG靜態圖片變成GIF動態圖片、再到短影片;從去年開始,直播也火熱起來,成為一種流行的時尚。這些迅速的變化趨勢,反應了一個共同的特點,就是“互動的資訊量越豐富、越實時,使用者越容易被吸引,越會產生新的價值”。
如圖中所示行業,都在利用最新的人工智慧(Artificial Intelligence, AI)技術產生新的價值,同時也引入新的需求:
手機相簿。它早已不是簡單的圖片備份,iOS透過AI構建人臉相簿、場景標籤、編輯應用,變成吸引客戶的亮點,成為新的基線。影片監控。它不再只是記錄取證工具,而是利用AI發展為智慧城市,變成了智慧的眼睛,要管理整個城市的交通訊息。直播應用。個人分享已不僅僅是部落格、微博的文字形式,更是轉變為快速直觀的影片模式,這背後需要更高、更快的直播內容理解、稽核需求。
資料處理場景需求
對於圖片分享社群應用場景,最基本的功能是提供備份、分享,但這並不能帶來更多的價值。只有提供更多的圖片處理能力,比如主體剪裁、人臉識別、濾鏡功能、風格渲染、影片合成等資料處理功能,如下圖所示。這些亮點將為使用者帶來“生活不止眼前的苟且,還有依然在你身邊的美好”回憶,從而讓應用更具吸引力。
內容檢索場景需求
如今的綜藝節目非常火爆,例如跑男、極限挑戰等,每期拍攝的素材量千倍於實際播出量;要在這海量素材中快速掃描、找到爆點,需要相當大的工作量,例如當前的人肉檢索低效率方式需要處理幾周的時間。如果能夠基於AI分析語音、人物、場景得到結構化資訊,並索引管理起來,支撐更好的檢索,它將會大大的提高素材的處理效率。
同樣,線上教育等領域,對於老師、演講者的材料、語音、影片內容,如果能夠提供快速的解析索引能力,那麼它將給學習者提供便捷的專場內容描述、快速定位關鍵術語、演講筆記同步提取等亮點。
客戶痛點分析
要滿足上述場景需求,當前應用架構設計時,需要選型不同資料處理功能的廠家(包括AI廠家)進行整合、或者自研開發,對於內容檢索,還需要分析場景細節需求,引入資料庫設計和開發。這都需要很好的技術能力,以及開發團隊的支撐,並解決如下的痛點。
多廠家管理痛點
圖片應用將資料儲存到雲端儲存後,要選擇不同廠家的AI分析能力,支撐業務和監管的需求。應用通常會在雲伺服器(Elastic Compute Service,ECS)上部署AI廠家的軟體包,或者直接呼叫AI廠家提供的服務,但需要解決如下問題:
介面不統一。因為存在多廠家的選型,需要考慮不同廠家介面的相容性。資源浪費。同一張圖片會被多次讀取,甚至是傳輸到外部網路,浪費網路頻寬,提高使用成本。無存量資料的低成本批次處理方案。採用廠商的同步處理價格高昂,需要提供存量資料的低成本批次處理方案,接受非同步介面返回檢測結果(比如針對存量的OSS桶裡面的所有圖片,進行批次鑑黃)。
複雜後設資料管理痛點
智慧網盤透過自己的使用者鑑權服務允許客戶登入,然後採用基礎資料管理把圖片、影片上傳到雲端儲存OSS中。為了提供人臉分組、標籤分組等搜尋功能,需要提供各類後設資料管理,定義基於場景的表格式、處理資料庫的異常,它將帶來如下的開發難度:
後設資料表設計難度大。針對不同的後設資料,需要分類設計各類表結構儲存,有相當的技術門檻。多維度後設資料管理有挑戰。需要組合多種後設資料,進行多維度查詢處理,存在設計挑戰。維護後設資料的的一致性難題。解決這些後設資料在異常場景下的異常處理,是系統級難題。
設計目標
透過上述的場景和痛點分析,智慧媒體管理(IMM)服務提取了6個關鍵點作為設計目標:
海量資料,支撐雲端儲存上的海量資料處理。端雲拉通,能夠讓端和雲進行有效的協作。場景結合,基於場景構建後設資料管理便於快速接入。一鍵處理,簡化配置和使用、提高系統易用性。智慧分析,引入業界領先的處理能力,特別是AI能力。標準統一,訪問介面統一為阿里雲的標準。
功能描述
對於雲端儲存上的海量資料,透過授權訪問的安全設計,讓資料處理分析服務能夠有許可權訪問資料,在此之上構建資料智慧處理框架,該框架針對離線處理最佳化設計,同時支援實時處理能力。基於該處理框架,引入了業界領先的資料處理能力,包括各種AI能力。利用離線處理能力關聯授權的雲端儲存,可以提供便捷的存量資料一鍵分析,透過該分析過程構建價值後設資料,支撐更好的內容檢索。透過這樣的設計,從而提供如下功能:
普惠AI演算法,提供豐富功能。人臉分組、圖片打標、版權、鑑黃等能力。價值後設資料,為客戶帶來新的增長點。整合價值後設資料,提供智慧分析搜尋。OFFICE文件處理,簡化客戶使用。提供典型的OFFICE檔案格式轉換,便於移動裝置瀏覽辦公文件。場景化、一鍵式處理,提高易用性。基於場景模版,結合實時、離線處理引擎,一鍵生成網盤關鍵後設資料。
架構介紹
如圖是IMM服務的架構依賴上下文,服務本身的架構分為2層:處理引擎、後設資料索引。
架構依賴上下文
對下依賴阿里雲的物件儲存、檔案儲存等服務,透過安全的機制訪問裡面儲存的非結構化資料(例如圖片、影片),提取價值資訊。對上依賴場景理解,進行封裝,支撐影片網盤、手機相簿、社交相簿、家庭監控等圖片、影片應用場景,為它們產生新的價值。
處理引擎層
基於阿里雲端儲存,就近構建計算框架,該框架支援批次非同步處理、準實時同步處理,在一鍵關聯雲端儲存(例如,指定Bucket的目錄字首、指定Bucket的某個物件)後,實現快速的自動資料處理,透過整合業界領先的資料處理演算法,處理引擎提供如下功能。
OFFICE文件格式轉換。支援將OFFICE文件轉換為JPG圖片格式,從而更好的支援網盤的文件預覽功能。大圖處理。支援將超大的圖片進行切割、縮放處理,友好的支撐相簿、相簿場景的精細看圖功能。標籤檢測。透過人工智慧技術,識別圖片、影片中的物品標籤,從而實現機器的制動打標,更好的支撐推薦應用。人臉檢測。透過人工智慧技術,識別圖片、影片中的人臉,檢測出人臉框,判斷人臉姿勢、年齡、性別等屬性。
後設資料索引層
基於處理引擎提供的功能,透過對場景的深入理解和梳理,IMM封裝了場景的後設資料設計,對外提供場景的後設資料訪問介面,簡化場景應用的設計難度、無須關注後設資料索引資料庫的運維工作,目前支援如下的後設資料索引。
人臉分組索引。構建後設資料集合,然後呼叫人臉分組的介面分析圖片,把得到的後設資料加入到該後設資料集合中,從而可以得到該集合中相似的人臉。透過該索引,可以快速的支撐網盤的人臉相簿、家庭監控的陌生人檢測、甚至新零售的顧客管理等場景。標籤分組索引。構建後設資料集合,然後呼叫標籤分組的索引介面分析圖片,把得到的後設資料加入到該後設資料集合中,從而可以根據標籤搜尋圖片。透過該索引,可以快速的支撐網盤的場景相簿、家庭監控的寵物跟蹤、甚至暴力、恐怖、色情圖片等標籤的搜尋。
排程框架
IMM的所有資料處理請求都在排程框架下執行,例如上述架構中提到的處理引擎層、後設資料索引層請求,它由2部分組成:
執行例項(Instance)。執行例項是執行指定資料處理功能的節點,例如執行圖片打標功能的節點。它可以是虛擬機器、或者Docker,能夠採用預留型別、或者Spot競價型別的例項,支援部署在阿里雲的VPC(Virtual Private Cloud)環境,保證資料處理功能的安全性、隔離性。排程控制器(Schedule Controller)。排程控制器負責把IMM接收到的請求分發到指定功能的例項上,它支援接收同步、非同步的請求,提供準實時、離線的排程。針對負載的變化,實現了例項資源池的彈性伸縮、故障處理、自動升級等能力。
當排程框架收到同步的請求時,例如DetectTag進行圖片打標分析時。排程框架將會把請求分發到請求佇列的Pipeline,然後根據後端例項的節點狀態、負載情況快速轉發請求,從而達到準實時排程的能力。為了保證請求的低時延,以及請求的成功率,通常選擇預留的例項。
當排程框架收到非同步的請求時,例如CreateTagJob指定OSS的桶、字首進行批次的圖片打標分析時。排程框架將會把請求放到排程器,排程器遍歷OSS桶、字首的物件,然後生成單個物件的資料處理請求並分發到多個請求佇列中,再根據後端例項的節點狀態、負載情況快速向多個例項轉發請求,從而達到離線排程的能力。為了保證離線排程的成本,通常選擇Spot型別的競價例項。
透過上述排程控制和資料處理分離的架構,排程框架提供如下亮點:
準實時、離線排程。針對離線處理價效比競爭力的最佳化設計下,也能提供準實時能力,實現資料處理的閉環。同步、非同步請求。支撐一鍵式的非同步處理需求同時,還提供了同步請求的靈活性。資料處理能力的安全性。利用VPC部署資料處理的例項,保證了資源的隔離、安全的遮蔽。
如何使用
IMM提供控制檯操作和API介面,透過控制檯快速的建立IMM的專案,然後體驗IMM的資料處理功能。
控制檯使用
登入阿里雲控制檯,執行如下操作:
第一步,開通智慧媒體管理服務。開通後,即可使用IMM提供的功能。第二步,建立專案。使用IMM必須要建立專案,它是IMM資源管理、計費的基本單元。
建立了專案,就可以體驗IMM支援的功能:
格式預覽。支援OFFICE文件轉換,並用圖片方式預覽。人臉檢測。檢測照片中的人臉,識別年齡、性別,眼部狀態資訊。圖片打標。檢測圖片包含的標籤資訊,以及置信度值。
詳細的控制檯使用介紹,請參考IMM快速開始。
API使用
IMM的API呼叫方法
呼叫IMM的API需要遵守阿里雲的API規範,請參考IMM API呼叫,請您注意呼叫時的引數,特別是簽名。
如下是IMM典型功能的API呼叫示例。
檔案格式轉換CreateFormatConvertJob
POST https://imm.cn-shanghai.aliyuncs.com?Action=CreateFormatConvertJob
&Project=test
&SrcUri="oss://bucket1/test.pptx"
&TgtType=jpg
&TgtUri="oss://bucket1/imm-format-convert-tgt/session123/"
&ExternalID=aaa
該功能介面的詳細資訊,請參考CreateFormatConvertJob。
圖片打標DetectTag
POST https://imm.cn-shanghai.aliyuncs.com?Action=DetectTag
&Project=test
&SrcUri=["oss://bucket1/1.jpg"]
該功能介面的詳細資訊,請參考DetectTag。
人臉檢測DetectFace
POST https://imm.cn-shanghai.aliyuncs.com?Action=DetectFace
&Project=test
&SrcUri=["oss://bucket1/A.jpg"]
該功能介面的詳細資訊,請參考DetectFace。
批次鑑黃CreatePornBatchDetectJob
POST https://imm.cn-hangzhou.aliyuncs.com?Action=CreatePornBatchDetectJob
&Project=test
&SrcUri="oss://bucket/prefix"
&TgtUri="oss://bucket/imm-porn-batch-tgt/session1"
該功能介面的詳細資訊,請參考CreatePornBatchDetectJob。
立即體驗
現在產品已經在阿里雲官網正式開始公測,點選這裡立即體驗。
後續規劃
下一階段,IMM將和OSS整合拉通:
在OSS控制檯整合IMM功能。實現OFFICE文件的預覽,媒體物件的AI功能。在OSS提供存量資料的IMM處理對接。可以透過OSS的控制檯,選擇某個桶或者其目錄,呼叫IMM的批次非同步任務,例如批次鑑黃,從而享受高價效比、便捷的資料處理。在OSS的API中拉通。呼叫oss的x-oss-process處理引擎時,呼叫到IMM的API進行處理。
透過這樣端的端的整合,從而讓您在雲上的管理更加易用。
點選檢視原文