課程回顧｜以智慧之力，加速媒體生產全自動程式

阿里雲影片雲發表於2023-02-10

原文網址 : https://www.cnblogs.com/VideoCloudTech/p/17108824.html

本文內容整理自「智慧媒體生產」系列課程第二講：影片AI與智慧生產製作，由阿里雲智慧影片雲高階技術專家分享影片AI原理，AI輔助媒體生產，音影片智慧化能力和底層原理，以及如何利用阿里雲現有資源使用音影片AI能力。課程回放見文末。

01 演算法演進：影片AI原理

在媒體生產的全生命週期中，AI演算法輔助提升內容生產製作效率，為創作保駕護航。

智慧生產全鏈路

智慧生產全鏈路可分為五大部分。傳統的媒體生產包含採集、編輯、儲存、管理和分發五個流程，隨著人工智慧技術的興起，五大流程涉及到越來越多的機器參與，其中最主要的便是AI技術的應用。以下舉例說明：

l 採集

在攝像機拍攝時同步進行綠幕摳圖，這在演播室或者影視製作場景中是比較常見的。

l 編輯

編輯過程運用到很多技術，比如橫轉豎、提取封面、疊加字幕等，同時這些字幕還可以透過語音識別的方式提取出來再疊加在畫面上。

l 儲存

影片在採集和編輯之後，需要儲存下來進行結構化分析，像智慧標籤就是運用在儲存場景，從影片中提取出相應的標籤，進行結構化的儲存，並把影片庫中的影片進行結構化關聯。

l 管理

儲存下來的影片如何管理？如何透過關鍵詞檢索到對應的影片？在管理環節，AI可以幫助進行多模態的檢索，比如人物搜尋等。

l 分發

在儲存和管理之後，影片分發也運用到AI技術，比如音影片DNA、溯源水印等版權保護應用。如果透過直播流的方式對廣大使用者進行直播，那麼分發環節還會涉及到直播稽核，以免出現直播故障。

圖片1.png

基於智慧生產全鏈路，媒體AI全景圖應運而生，共分為四個層次：

最上面的層次表達媒體生產的應用場景，包含智慧媒資管理、內容智慧生產以及影片版權保護。

往下是產品能力，即AI組合達成的能力，比如影片分類、智慧封面、智慧摳圖等。

再往下是AI原子能力，比如語音識別、自然語言處理這些底層的AI能力。

最下是支撐AI能力的基礎底座，如編解碼和GPU加速等。以上組合起來，生成一張AI運用在智慧生產中的全景圖。

圖片 2.png

影片AI原理

影片AI的底層原理究竟是什麼？

人工智慧發源於機器學習，而機器學習最早只是一種統計手段，像決策樹、支援向量機、隨機森林等各種數學方法。

隨著時代發展，科學家提出一種人工神經網路的計算方法，或者說演算法，後來發現人工神經網路可以變得更大、層次變得更深，經過進一步探索發展，在二十多年前提出了深度學習的觀點和概念。

所謂深度學習，就是在原先的人工神經網路上，把中間的層次（我們稱之為隱含層）擴充套件成兩個層次、三個層次，甚至發展到現在的幾十個層次，即可得到更多的輸入層和輸出層節點。

當神經網路變得更大、更深的時候，機器學習就演化成深度學習，也就是我們現在俗稱的AI。

隨之而來產生一個問題：如何將AI運用到影片和影像中？

假如有一個1080P的影片，影片大小為1920✖1080，此時一張影像上就存在百萬個畫素。如果把百萬個畫素點都放入神經網路中，會產生巨大的計算量，遠遠超出常規計算機所能達到的上限。

因此，在把影像放入神經網路前需要進行處理，研究人員提出了卷積神經網路，而這也是現在所有影像和影片AI的基礎。

圖片3.png

在卷積神經網路的標準模型中，影像進入神經網路之前需要進行兩步操作：

第一步是卷積層。所謂卷積就是拿一個卷積核（可以簡單理解為一個矩陣）和原始影像的每一個卷積核大小的矩陣進行矩陣層的操作，最後得到一個特徵影像。由於有多個卷積核，所以一張圖片可以提取出多個特徵影像。

特徵影像直接放入神經網路還是太大，因此，需要進行第二步池化層操作，池化層的作用就是下采樣，可採取多種方式，比如把方格中的最大值、平均值或者加權平均值作為最終輸出值，形成下采樣資料。

在上述例子中，一張影像的大小降低為原先的四分之一，輸入到神經網路之後，極大降低了原始資料量，即可進行影像神經網路處理。由此可見，用通俗的話來講，影片或影像的AI模型必須是由大資料喂出來的。

大資料天然地長在雲上，雲和AI天然的結合，可以使AI在雲上得到較好的發展與運用。

瞭解影片AI原理之後，如何反過來評價AI的效果？

以典型的分類問題舉例，假如有100個影片，需要找出其中出現過人的影片，那麼有兩個指標可以評價AI模型的好壞：一個是精度，另一個是召回率。

所謂的精度是指，假設AI演算法最終找出50個影片，但是檢查之後發現，其中只有40個是真正有人的，那麼精度計算為40➗50=0.8。

召回率是指，假設這100個影片中真正有人的一共有80個，而AI找出了其中40個，那麼召回率計算為0.5。

可以發現，精度和召回率是一對矛盾。假如想提高精度，只要找出來的影片少一點，就可以保證每個找出來的影片都是對的，即精度上升，但此時召回率一定會下降。

現階段的AI並不完美，也就是說，目前AI還只能輔助影片生產，生產影片的主體還是人。

AI輔助生產

AI輔助生產可以由以下兩個示例進行說明。

示例一：透過圖片搜尋相關圖片或影片。Demo顯示，輸入一張周星馳的圖片後，機器雖然不認識這是誰，但是能夠從圖片中提取此人的外貌特徵，然後在影片庫裡做相應搜尋，找出一堆包含周星馳的影片。

圖片 4.png

示例二：智慧橫轉豎。傳統電影和電視劇均為橫屏播放，隨著移動網際網路興起，這些電影和電視劇需要在手機端進行投放，由此誕生了智慧橫轉豎這樣的AI演算法，將大量的橫屏影片轉換成豎屏影片，幫助橫屏影片在手機端分發。

圖片 5.png

電視劇橫轉豎效果

圖片 6.png

新聞橫轉豎效果

02 智慧進階：影片內容理解

智慧標籤

智慧標籤基於AI對於影片內容的理解，自動提取影片中的標籤、關鍵詞等資訊，分析詳情會展示為四部分：

第一部分是影片標籤，獲取影片的類目，影片出現過哪些人物，人物出現的時間點以及在影片中的位置，人物的相似度等。

第二部分是文字標籤，會提煉出一些關鍵詞，包括影片文字中出現過的組織機構，比如央視等。

後面兩部分為文字識別和語音識別，分別透過圖片OCR技術和語音雲識別技術實現。

具體示例可在AI體驗館中進行體驗，同時，也提供API接入文件進行參考。

體驗中心：https://retina.aliyun.com/#/Label

API接入文件：https://help.aliyun.com/document_detail/163485.html

AI是如何從影片中提取出資訊的呢？從影片標籤的流程圖中可以看到，輸入一個影片，分別進行兩部分操作：

一部分是對影片做抽幀處理，抽幀得到的影像透過人像識別、場景識別、物體識別、地標識別、OCR等影像AI識別模型，提煉出影片標籤。

另一部分是把影片中的音訊提取出來，然後透過ASR得到文字結果，最後再經過NLP（自然語言處理），提取出文字標籤。

圖片 7.png

智慧稽核

影片稽核的技術原理與影片標籤相同，唯一不同的是，影片標籤可以理解為一個正向的影片內容理解，而影片稽核是負向的，稽核需要識別出一些不合規的、有問題的內容，比如鑑黃、暴恐涉政、違規、二維碼、不良場景等資訊。

圖片8.png

影片檢索

影片檢索的核心技術點是利用標籤結果進行影片的分析和查詢。

影片檢索架構圖顯示，媒資系統中的影片透過媒資特徵入庫模組，匯入到智慧標籤分析中，並得到一系列的標籤，包括影片標籤、文字標籤，原始的ASR、OCR結果等，將這些結果連同影片的後設資料資訊比如標題、描述等，利用ElasticSearch開源服務進行文字資訊的倒排索引和查詢。

影片檢索過程中會涉及到精排模組，這需要由業務層來實現。如果只是從ES中把符合檢索條件的結果提取出來，不一定能滿足業務層需求，比方說業務層面對政治新聞場景時，會要求把某些人物的搜尋結果更靠前排序，而這就是精排模組所需要做的工作。

檢索系統一般都會根據業務層排序，接入業務介面模組，由此一個基本的檢索系統搭建完成。但是，現在的檢索系統只能按照文字檢索影片。如何透過一張圖片，檢索到相似的圖片或影片呢？

這涉及到影片DNA檢索技術。所謂的影片DNA，就是把影片裡面的關鍵幀或者某一鏡頭提煉出關鍵資訊，我們把它稱之為DNA，並把這些資訊放入向量資料庫中進行檢索，更多內容可透過體驗中心和接入文件進行擴充瞭解。

體驗中心：https://retina.aliyun.com/#/DNA

API接入文件：https://help.aliyun.com/document_detail/93553.html

圖片 9.png

03 能力升級：音影片智慧處理

基於影片內容理解，如何對影片進行智慧處理？

綠幕摳圖

綠幕摳圖是在影片拍攝或者採集時，把背景替換成電腦製作的畫面。在演播室場景中，實際拍攝時根據需求，在主持人的背後放置綠幕背景或者藍幕背景。

影視製作場景同樣運用到綠幕摳圖，比如科幻片中無法實景拍攝的部分，會在後期進行背景疊加或其他處理工作，透過在人物背後放置綠幕的方式，把人物主體提取出來。

綠幕摳圖要求輸入的是藍幕或者綠幕影片，解析度不超過4K，同時輸入一張背景圖片，即可輸出替換背景後的影片。以下為示例說明：一個人從綠幕前走過，替換背景後，變成此人在背景前走路，整體效果非常自然。

圖片 10.png

影片連結：https://v.youku.com/v_show/id_XNTk0MDc4Mjc3Mg==.html

圖片 11.png

影片連結： https://v.youku.com/v_show/id_XNTk0MDc4Mjc5Ng==.html

如何評價綠幕摳圖的質量？首先要處理好邊緣溢色，比如在頭髮邊緣，由於原始的影像背景是綠幕，頭髮縫邊緣必然會染上一些綠色，技術上需要把這些邊緣溢色擦除掉。

此外，如何真實地呈現透明度，併疊加背後的內容，還有運動模糊，地面陰影等，均是綠幕摳圖質量好壞的評價點。

橫轉豎

橫轉豎是在移動網際網路上分發影片的必備處理手段。

傳統人工製作橫轉豎影片的難點在於：一，需要專業的剪輯軟體和製作人員，成本高，速度慢；二，在目標移動比較快的場景中，需要逐幀剪裁，工作量巨大；三，剪裁目標區域後，前後幀難以對齊。因此，橫轉豎影片更適合由機器製作實現。

智慧橫轉豎的演算法流程是：首先對影片進行鏡頭分割，所謂的鏡頭分割就是在影片製作中，按照不同拍攝機位的轉變，識別鏡頭的切換，並把不同鏡頭分割開來。

圖片 12.png

影片連結：https://v.youku.com/v_show/id_XNTk0MDg4MjA0NA==.html

其次是主體選擇，在主體選擇時，一般選擇畫面中最醒目的人作為目標，在上述舞蹈場景中，主體就是這個正在跳舞的人。

然後是鏡頭追蹤，每幀影像做好初期選擇之後，下一幀都要跟隨目標，即框定的影像跟隨這個人進行移動。

最後是路徑平滑，鏡頭追蹤完成之後，最終生成的豎屏影片必須是平滑的，不能出現翹邊等不良效果。更多內容可參見官網：

體驗中心：https://retina.aliyun.com/#/H2V

API接入文件：https://help.aliyun.com/document_detail/169896.html

其他影片智慧處理能力

目前，阿里雲影片雲提供的影片智慧處理能力，可分為以下四類：

ROI提取，即感興趣區域提取，包括綠幕摳圖和橫轉豎；
智慧擦除，比如去圖示、去字幕；
關鍵資訊提煉，比如智慧封面，即從影片中提取出最能表現影片的一張圖片；影片摘要，提取出影片中最能表現影片的簡短影片；
結構化分析，比如字幕提取，把嵌入在影像中的字幕自動提取出來；PPT拆條，可以將一個課程影片自動拆成段落。

圖片 13.png

講完影片智慧處理能力，接下來介紹兩項音訊智慧處理能力：副歌識別和節奏檢測。

副歌識別

副歌是指歌曲中的高潮片段。副歌識別有何應用場景？比如，很多音樂APP的試聽功能，會直接播放歌曲中的高潮片段，人為進行提取相當麻煩，而副歌識別就能很好地完成任務。

副歌識別的演算法流程為：輸入歌曲之後，首先進行音樂段落檢測，然後提取副歌段落，並進行精調使之更貼合，最後再生成副歌片段。

圖片 14.png

副歌識別的示例顯示，透過呼叫之後，演算法會返回兩個結果值，即副歌的開始時間點和結束時間點。

圖片 15.png

大家可以對返回的結果和音訊進行對照，從72秒副歌開始，到102秒副歌結束，副歌識別結果還是非常準確的。

節奏檢測

節奏檢測即識別音樂中的節奏點，其主要應用場景為影片製作和音樂推薦，比如，透過識別出音樂節奏點，進行鬼畜影片的製作；透過識別音樂的節拍型別，是四三拍還是四四拍，幫助進行音樂分類等。

繼續以上述音訊示例，節奏檢測演算法輸出兩個結果：第一個是節拍時間點，如0.46秒、0.96秒均為節拍時間點；第二個是downbeat時間點，在樂理中解釋為重拍，其中0.46秒為第一拍，2.46秒為第五拍，也就是說每四拍為一個小節，每小節的第一拍為重拍，由此檢測出該音樂的節奏。

圖片 16.png

其他音訊智慧處理能力

此外，影片雲還提供其他音訊智慧處理能力，包括混音，ASR語音識別和TTS語音合成。混音即把兩個音樂片段進行疊加，其中涉及到音量增益和自動控制演算法。

這些能力進行組合，還可以實現更多玩法，比如歌曲串燒，首先透過副歌識別，把幾首歌曲的副歌部分提取出來，然後進行節奏檢測，把合適的節拍點合在一起，最終組合成一首完整的歌曲串燒。

04 開箱即用：阿里雲媒資服務

基於影片AI原理以及效果，阿里雲利用現有資源，提供更方便、更高效的音影片AI使用能力。

MPS服務

MPS是媒體處理的英文簡稱。阿里雲提供針對多媒體的資料處理服務，將媒體處理過程抽象成兩種模式：一種是輸入音影片等多媒體檔案，經過智慧化媒體處理，生成一個新的媒體檔案，比如之前提到的智慧橫轉豎。

另一種模式是輸入一個媒體檔案，輸出經過媒體處理分析後的一系列結構化資料，比如智慧標籤或智慧稽核。

MPS支援多項音影片智慧處理能力，此外，MPS的媒體檔案型別，既可以輸入OSS檔案，也支援輸入網路URL地址。

圖片17.png

MPS介面呼叫的流程為：

第一步，開通MPS產品，在開通的過程中，控制檯會引導進行增加許可權等相關操作。

開通MPS產品：https://www.aliyun.com/product/mts

第二步，呼叫MPS的Open API介面，獲得Access Key，包括AK的ID和金鑰。所有阿里雲的Open API都要透過AK和SK訪問。

使用RAM服務獲取AccessKey：https://ram.console.aliyun.com/manage/ak

第三步，認真閱讀MPS提供的API文件：https://help.aliyun.com/document_detail/29210.html

第四步，針對開發需要，選用不同程式語言，並安裝依賴模組：https://help.aliyun.com/document_detail/188024.html

第五步，編寫程式碼。

阿里雲MPS服務提供的智慧化能力可以分為四個維度：

一是影片內容理解，包含智慧標籤，智慧稽核，媒體DNA，媒體DNA是影片檢索中的重要組成部分，還有智慧封面、影片摘要等。

二是影片智慧處理，像橫轉豎、去圖示、去字幕、字幕提取等，從電視劇或電影中抽取出字幕，並輸出TXT或者SRT格式，此外，也包括綠幕摳圖和PPT拆條等。

三是音訊智慧處理，包含副歌檢測、混音處理、節奏檢測和音質檢測等。

四是圖片智慧處理，包含橫轉豎、去圖示和人像風格化。人像風格化可以把一張人像圖片風格化成不同的形式，比如把人像進行卡通化，或者進行3D處理。

圖片 18.png

IMS服務

IMS服務是阿里雲近年來新上的服務，全稱是智慧媒體服務，和MPS服務的區別在於：

IMS服務圍繞直播和點播場景，是針對媒體處理的全流程服務，可認為是MPS服務的重大產品迭代和升級。

第一，IMS不僅針對於單個媒體處理過程，而是對於媒體服務全流程、全生產週期的管理和製作；

第二，IMS的整合度更高，不光可以進行單個原子能力的音影片處理，還可以進行媒資管理、工作流觸發等，讓開發者更方便地使用音影片智慧化能力；

第三，IMS更智慧，後續所有智慧化能力升級後都會集中體現在IMS服務中。

圖片19.png

IMS控制檯融合了媒資管理，媒資庫中的音訊影片檔案，包括圖片、輔助的媒資，都可以透過IMS服務進行展示和管理。

利用多模檢索的智慧化能力，IMS可以實現多媒體檔案的智慧化檢索。傳統的音影片檔案檢索，只能針對標題或者簡介進行，而IMS支援對上傳的音影片檔案做AI自動分類，並根據分類結果進行搜尋，同時，也支援對影片中的文字進行自動識別檢索。

比如，新聞聯播的畫面中出現了“康輝”兩個字樣，雖然影片檔案的標題和簡介裡都沒有出現過“康輝”，但在搜尋“康輝”時，AI還是可以搜尋識別出此影片檔案，這就是多模檢索的能力。

圖片20.png

Retina多媒體AI體驗中心

上述MPS和IMS服務的智慧化能力，都需要透過Open API呼叫或者控制檯開通使用，而Retina體驗中心可以讓大家更方便快捷地進行體驗，只需上傳影片或圖片，就可以直觀地得到經過智慧化處理後的結果。

例如，在Retina平臺，你可以體驗人像卡通化的效果，只需上傳一張人像圖片，經過自動處理，就能獲得童話風格的卡通人像圖片，更多體驗就在：http://retina.aliyun.com/

圖片 21.png

隨著影片與AI技術的發展和演進，AI在媒體生產領域中發揮著越來越重要的作用，以更快的速度、更高的效率完成之前難以實現的事情。

未來，AI將從輔助媒體生產，逐漸轉變為直接生產有意義、有價值、有情感的影片，進一步加速媒體生產製作全自動處理程式。

更多完整內容詳見課程回放 ⬇️

第二講影片封面.png

影片連結：https://v.youku.com/v_show/id_XNTk0MjQ4Mjk5Mg==.html

課程回顧｜一鍵式全智慧生產製作，設計有生命力的剪輯流程
2023-02-08
課程回顧 | 如何認識六西格瑪
2023-03-03
SuperData：2019年網路遊戲和互動媒體回顧
2020-01-20
遊戲
Java基礎回顧（牛客網專案課程）
2019-01-05
Java
【直播回顧】OpenHarmony知識賦能五期第三課——多媒體整體介紹
2022-05-13
回顧一下MyBatis逆向工程——自動生成程式碼
2018-07-10
MyBatis
借Adobe XD之力，自動生成Flutter程式碼
2020-06-05
Flutter
如何選擇精益生產課程？
2023-03-15
回顧小程式 2018 年三足鼎立歷程，2019 年 BAT 火力全開！
2019-01-18
BAT
星魁：管理資料資產的「五步驟」與「六要素」 | 數智加速度05課回顧
2020-05-09
華熙LIVE將以文化體育產業為核心打造全產業生態鏈
2022-03-02
產業
利用AI智慧體實現自動化公開課
2024-07-10
AI智慧體
追風：資料中臺如何驅動全域消費者運營？| 數智加速度09課回顧
2020-06-10
活動精彩回顧｜GopherChina 2019乾貨回顧！
2019-05-07
Go
證道：零售企業如何藉助資料智慧提升人效？| 數智加速度10課回顧
2020-06-24
視訊化全鏈路智慧上雲？一文詳解什麼是阿里雲視訊雲「智慧媒體生產」
2022-07-12
阿里
以一己之力，生抗美團技術部落格！
2021-07-05
回顧專案測試全過程，測試如何回答 “測完了嗎？”
2024-03-29
如何選擇更好的新媒體運營課程？
2020-10-09
淺談APS生產排程在自動化排產考慮的約束
2024-10-30
[課程複習] 軟體工程導論之經典題目回顧 (一)選擇題、填空題1
2019-01-30
軟體工程
2020 網路課智慧樹自動刷課程式碼，自動跳轉，自動答題並關閉彈窗，自動1.5倍速靜音
2020-01-11
React Native: 回顧 Udacity 移動工程團隊的使用歷程
2018-07-08
React Native
程式碼大全回顧篇...
2019-03-26
58安居客：2021年全國房地產新房市場形勢回顧
2022-01-15
教育機構如何智慧自動排課？
2022-05-07
自學javase的回顧（2/10）
2020-11-28
Java
python網課自動刷課程式-------selenium+chromedriver
2019-06-23
PythonChrome
PHP回顧之多程式程式設計
2018-06-24
PHP程式設計
直播軟體搭建，輸入框回車以後自動重新整理頁面
2023-02-27
直播程式，Vue input輸入框回車以後自動重新整理頁面
2023-01-28
Vue
自媒體--
2024-06-05
攜程小程式生態之自動化錯誤預警方案
2023-03-17
2018中國半導體產業10大看點回顧
2019-01-14
產業
LiveVideoStackCon 2017 Day 1 專場回顧 —— 多媒體與瀏覽器專場
2019-02-26
IDE瀏覽器
2022年回顧及2023年展望：科技、媒體及通訊（附下載）
2023-03-31
騰訊湯道生：雲智融合，加速產業智慧升級
2022-12-01
產業
eMarketer: 2019年移動回顧
2020-01-06