通過人工智慧構建智慧集錦服務在央視世界盃期間的應用

羿雲發表於2018-10-25

    2018年世界盃期間,阿里巴巴與央視CCTV5客戶端聯合打造基於多模態人工智慧技術的智慧集錦服務,每場足球比賽結束5分鐘就能夠智慧生成全場比賽精彩集錦,經過人工稽核後比賽結束20分鐘內就能在CCTV5客戶端釋出,集錦的生成時間相比人工剪輯效率提升了10倍。經過世界盃64場比賽的實際應用證明,智慧集錦生成內容基本能夠達到直接釋出的標準,能夠明顯節約人工工作量,提高內容釋出時效性,讓編輯可以更專注於其它更加精細化且包含情感和編輯思路的視訊產品的製作。

    從2018年2月底正式啟動,阿里巴巴與央視緊密配合,在3個月時間裡完成建模、研發、訓練、測試和聯調,在6月中旬世界盃正式應用,這是總檯通過下屬總公司與阿里巴巴簽署技術合作協議後在人工智慧方向成功落地的首個業務場景。在當前全球環境來看,通過人工智慧解決某一複雜業務的痛點很難有現成可用的理想化成熟技術,而需要技術方與業務方之間相互配合,通過複雜的多模態人工智慧演算法支撐,提供充足的資料餵養,在業務場景中逐步成長。本次成功合作充分證明了筆者的這一觀點。

一、雙方明確可量化的業務目標

    在合作伊始,雙方針對本次應用明確了可量化的業務目標,包括時效性要求、集錦時長要求、集錦構成比賽片段優先順序排序、片段完整性要求四個部分。

  • 時效性要求:

在每場比賽結束5分鐘內生成精彩集錦。

  • 集錦時長要求:

可根據比賽精彩程度自行調節集錦時長,也能夠人工干預指定時長。人工指定時長與實際生成集錦時長之間偏差不超過1分鐘。

  • 片段優先順序排序:

針對足球比賽的實際場景,業務方提出構成集錦的優先順序順序由高到低依次為:進球片段、紅黃牌片段、威脅射門片段、敏感犯規片段(推搡衝突)。

  • 片段完整性要求:

    視覺要求:

    • 完整的傳球配合和射門鏡頭,如有連續配合傳球后射門,需從配合第一腳傳球開始剪下。射門包含點球、直接任意球等場景。如是進球片段需包含慶祝進球的鏡頭。
    • 引起衝突和紅黃牌片段,需要完整記錄衝突過程、關鍵犯規動作和裁判出牌鏡頭。

    聽覺要求:

        在基於視覺完整性的前提下,不能在解說嘉賓一句話的中間作為切入點,切出點也需保證一句話的完整性。

二、研發針對性的多模態人工智慧演算法

    多模態深度學習是目前業界針對複雜的視訊問題的最有效解決方法,它可以把複雜且難以關聯的多源資料、多型別特徵進行融合並自動化的學習出內在關聯和邏輯,阿里巴巴在LSVC2017的奪冠過程也充分證明了多模態深度學習的高效性和實用性。

    本次央視世界盃AI集錦專案採用阿里巴巴達摩院最先進且高效的多模態技術,從根源上避免了單一識別技術自身的侷限性的影響,為AI集錦服務帶來了極高的可靠性。

    下圖是本屆世界盃AI集錦演算法的資料計算邏輯圖。視訊資料、音訊資料作為初始資料訊號源,輸入進行多模態的深度網路模型學習。視訊網路模型會產出涵蓋賽事結構、比分、行為、特殊標記、鏡頭深度、場景位置、場景分類等視訊資訊特徵和資料,音訊網路模型會產出涵蓋哨聲、歡呼聲、解說員文字資訊、文字事件等音訊資訊特徵和資料,再經過兩方資料結合分析,就能夠清晰定義出進球、射門、紅黃牌等事件。最後基於先前定義的集錦片段優先順序排序,計算出比賽的集錦內容。

    根據實際業務需求,央視與阿里一起將賽事中的事件劃分為兩大類:主事件和副事件。主事件是集錦中必須包含的片段;副事件是作為備選片段,當集錦主事件時間長度不足時再根據演算法優先順序進行填充。阿里巴巴基於足球賽事特點,為世界盃開創了多項先進的AI集錦多模態演算法,提升各種球場事件抓取的準確性。

    在主事件分析階段,阿里巴巴結合了音訊、視訊多維特徵提取賽事全方位過程資訊,首先精確計算得到主事件和人員行為的精確位置和區間,涵蓋進球、紅牌、黃牌、超威脅射門等;再進一步利用特徵資訊往前往後逐步擴充套件,推匯出每個事件發生的精確起始時間點,例如進球的助攻行為、威脅傳球、犯規前的推進行為等;最後輔以新研發的回放對映網路演算法計算得到事件對應的回放、慶祝、裁判動作、抱怨、衝突等等衍生事件和行為的精確時間點。處理邏輯如下圖所示:

    第二階段為副事件分析階段,邏輯如下圖所示。該階段主要用於發現賽事中相對精彩的副事件資訊,例如惡意推搡、受傷下場、精彩過人等事件的精確時間和區間。當主事件時間長度不足後觸發事件補償演算法,把相關片段插入主事件集錦中,增加集錦的整體可觀賞性。

    在整個多模態演算法網路中,依靠阿里巴巴達摩院的技術積累,設計並實現了多種賽事AI集錦專用的深度學習網路,在本屆世界盃AI剪輯專案中充分證明了這些演算法的高效性和實用性:

  • 利用自設計深度資訊分析網路SASA-NET,精準分析賽事視訊中的鏡頭變化、資訊變化;
  • 利用輕量級OCR演算法識別賽事中的比分資訊、時間資訊等其他檔案資訊,精確把握賽事中的資訊變化和更新;
  • 利用自設計深度時域特徵網路SATA-NET,精準檢測和識別賽事中的犯規、射門、出牌等超敏感資訊;
  • 利用視訊多維特徵資訊及特徵,結合自設計大規模視訊特徵多模態融合網路VM-NET分析攻防節奏,結合事件型別分析得到事件發起點資訊;
  • 利用音視訊多維度特徵,結合自設計多模態特徵網路MVA-NET精確剪輯解說資訊,保證解說資訊的完整性和流暢性;
  • 利用音視訊多維度特徵,結合自設計多模態特徵排序網MVA-RankNet精確剪輯解說資訊,針對事件的重要等級進行多維度排序和評分,並根據需要的時長定製化剪輯出集錦視訊。

三、提供充足的資料餵養

    在開發訓練過程中,央視先後提供了2016年歐洲盃、2014年世界盃共約100場比賽資料,阿里基於這些資料進行標註和訓練,讓演算法自我學習和進化,進一步提升演算法準確率。

  1. 視訊演算法的資料餵養

    在視訊演算法方面,基於央視提供的賽事近百場資料,結合自收集的歷史賽事資料超300場,約2.9萬分鍾比賽視訊資料,實現對球員、球場、比賽等不同維度的內容理解,達到了能夠真正看懂一場足球賽的認知水平。

    識別的事件型別不但廣泛,而且均具有較高的準確率,實測平均準確率達到95%以上,事件涵蓋進球、紅黃牌、射門、犯規、過人、換人、任意球、角球、點球等等。更為難得的是,針對時間區間的識別誤差均保持在3秒以內。

  1. 音訊演算法的資料餵養

    在音訊演算法方面,基於歷史資料針對性訓練內容包括:

  • 整理標註了所有比賽中解說員的常用詞彙
  • 整理標註了所有比賽中球場的音訊事件,包括裁判哨聲、球場進球后的歡呼聲、射偏後的嘆息聲、球員犯規的噓聲等

    另外,語音演算法團隊從網際網路抓取2萬篇足球&世界盃相關文稿進行訓練,進一步豐富了足球場景下的詞彙量;並收集和訓練了2018世界盃全部參賽球隊和球員名字及場上位置。

  1. 資料餵養的效果

    上述方法的餵養和訓練後,雙方利用2014年世界盃歷史資料進行實際檢測,智慧集錦服務的整體準確率得到了明顯提升:片段完整性的準確率從80%上升到95%;集錦完整性的準確率從85%上升到接近100%,多次測試沒有出現關鍵片段遺漏情況。

四、世界盃過程中的逐步成長

    6月14日晚世界盃開賽時智慧集錦服務正式啟用,在使用過程中雙方根據本次世界盃實際直播情況進行了持續的優化和修改,持續對智慧集錦應用場景進行優化,例如:

  • 因為世界盃比賽技術的升級,採用了視訊裁判技術而增加了更多比賽的中斷,例如韓國與德國比賽中進球射門與慶祝動作之間存在較長時間中斷;
  • 比賽中出現某退役球星在直播鏡頭中豎中指等突發場景,通過AI不雅動作分析擷取掉相關鏡頭;

    通過64場實戰比賽的不斷積累,讓多模態智慧集錦演算法的精準度和可用性不斷得到提升,剪輯效果與人工剪輯基本無差別,但效率提升了10倍。

五、總結

    央視世界盃智慧集錦是在電視臺體育業務首次通過複雜多模態AI演算法解決實際業務痛點的成功應用。一是依靠阿里巴巴集團優秀而豐富的AI人才,能夠在短時間內為世界盃集錦業務針對性研發各種型別AI演算法併成功組合;二是依靠央視明確可量化的業務需求和充足的資料提供幫助演算法準確率得到大幅度提升;三是雙方密切配合,通過央視新媒體整合釋出平臺整合阿里的智慧引擎,實現了全流程的自動化運轉。後續雙方在足球比賽集錦業務會繼續合作升級能力,繼續在其它體育專案中進行探索。


相關文章