不想橫屏看視訊?谷歌開源框架AutoFlip一鍵截出最精彩豎版視訊

機器之心發表於2020-02-14

因為手機平板等各種終端裝置層出不窮,製作人拍個視訊還要剪裁成各種尺寸,以便分發到各種渠道。然而,如果要聚焦於核心內容,那麼能追蹤主體,並剪裁視訊長寬尺寸的能力就必不可少了。

近日,谷歌開源了 AutoFlip 工具。這是一個開源的智慧視訊剪裁框架,其基於谷歌 MediaPipe 框架。

專案地址:https://github.com/google/mediapipe

在使用過程中,只需要將一段視訊和目標維度(如擷取的長寬比型別)作為輸入,AutoFlip 會分析視訊內容並提出一個優化路徑和裁剪策略,最後輸出一段視訊。如下動圖所示,我們可以選擇各種剪裁長寬比與剪裁模式:

不想橫屏看視訊?谷歌開源框架AutoFlip一鍵截出最精彩豎版視訊

AutoFlip 是什麼

AutoFlip 為智慧視訊調整提供了一套全自動的解決方案,它藉助當前頂尖的目標檢測與追蹤模型理解視訊內容。AutoFlip 會檢測表示場景變化的構圖變化,以便分離出場景進行進一步的處理。在每一個鏡頭中,它會使用視訊分析識別重構場景之前的重要內容,其重構場景主要通過選擇針對內容優化的相機模式和路徑。

不想橫屏看視訊?谷歌開源框架AutoFlip一鍵截出最精彩豎版視訊

視訊裁剪三步走,檢測鏡頭級的視訊邊界、分析視訊內容然後再根據需求進行剪裁。

鏡頭檢測

視訊可被視為是一段沒有中斷的鏡頭或場景序列。為了檢測是否發生了鏡頭的變化,AutoFlip 計算每一幀的色彩值,並和前一幀進行對比。如果色值的分佈發生了明顯變化,則標記鏡頭的改變。在得出剪輯策略前,AutoFlip 會快取整個視訊,用於對整個場景進行優化。

不想橫屏看視訊?谷歌開源框架AutoFlip一鍵截出最精彩豎版視訊

視訊內容分析

為了從視訊中找到有趣的剪輯片段,AutoFlip 採用了深度學習目標檢測模型。有趣的剪輯片段往往包含人和動物,但是其他元素也可以被識別出來,比如文字和廣告 logo,運動中的球和動作的捕捉等。

不想橫屏看視訊?谷歌開源框架AutoFlip一鍵截出最精彩豎版視訊

深度學習模型對運動的人或人臉進行了識別。

剪輯

在每一幀找到了興趣目標後,AutoFlip 自動選擇優化策略——靜態的、追拍或追蹤的,這些取決於目標在視訊中的行為。如下圖所示,第一行是 AutoFlip 根據幀級的邊界框追蹤到的相機路徑,第二行是平滑後的相機路徑。經過平滑處理後,追蹤效果還是比較理想的。

不想橫屏看視訊?谷歌開源框架AutoFlip一鍵截出最精彩豎版視訊

左圖目標在畫面中移動需要追蹤相機路徑;右圖幾乎固定在畫面相同的位置,靜態相機路徑就足夠了。

AutoFlip 有一個屬性圖,可以提供最佳效果或自定義需求的剪輯。如果覆蓋所有需要的區域不能實現(如目標在一幀視訊中顯得太大),AutoFlip 則會自動切換到相對不那麼激進的策略上。它會應用「信箱效應:letterbox effect」,在保持原始視訊尺寸的同時新增螢幕黑邊,讓畫面更自然。

不想橫屏看視訊?谷歌開源框架AutoFlip一鍵截出最精彩豎版視訊

對於右圖要求視訊囊括所有人臉,AutoFlip 會自動填充半透明黑邊以滿足設定的視訊長寬比。

因為 AutoFlip 是 MediaPipe 的一部分,所以對於具體怎麼使用,讀者可查閱介紹文件

文件地址:https://github.com/google/mediapipe/blob/master/mediapipe/docs/autoflip.md

最後,和其它機器學習演算法一樣,AutoFlip 的效能會隨著目標檢測等能力的提升而大大加強,尤其是衍生出來的能力,例如採訪鏡頭中的說話人檢測或動漫中的動物臉檢測等等。

當然,目前 AutoFlip 還有挺多提升的地方,尤其是當視訊邊緣有比較重要的文字資訊等。谷歌後續也希望 AutoFlip 能進一步融合自然語言處理等技術實現更合理的視訊智慧剪裁。

原文地址:https://ai.googleblog.com/2020/02/autoflip-open-source-framework-for.html

相關文章