成立於 2011 年的快手,自 2013 年轉型為短影片社交應用以來,已經成為國內最熱門的短影片社交平臺之一。截至 2018 年 12 月,快手擁有超過 1.6 億日活使用者。
「以使用者為出發點。」1 月 10 日在快手總部舉辦的媒體交流會上,這句話出現了多次。快手希望讓每個人享受記錄的樂趣,將複雜的技術普惠化,降低記錄的門檻。「公平普惠」是快手段影片底層邏輯中的重要一環,而技術是實現這一價值觀的重要部分。
人工智慧技術在快手內容生產上的應用
快手透過人臉關鍵點、人體關鍵點識別、手勢識別、視覺慣性里程計(VIO)、頭髮分割、背景分割等人工智慧技術,實現美妝裝飾特效、跳舞機遊戲、控雨特效、AR 特效、染髮特效、背景替換等魔法表情,帶給使用者新奇的記錄體驗。
快手還自主研發了手部關鍵點技術,能夠識別出圖片或影片中出現的任意手的位置、以及 21 個主要關節點位置。該技術方案支援任意手勢的關鍵點預測;同時採用創新的網路設計,極大減小了模型計算量,在 iPhone 和安卓手機上都能夠實現實時監測。
AI 技術內容生產環節的應用難點在於,快手使用者覆蓋面非常廣。據不完全統計,快手使用者手機型號超過 5 萬種,很大一部分手機效能相對有限,而先進的 AI 技術對裝置的計算量要求極高。為了讓更多使用者體驗先進技術,快手對底層平臺進行了定製化開發,自研了 YCNN 深度推理學習引擎,解決了 AI 技術執行受限於使用者裝置計算量的問題。該引擎可針對不同手機的硬體架構做高度的適配和效能最佳化,能夠使用 CPU、GPU、NPU、DSP 等多種執行模式。根據評測,快手 YCNN 執行速度比已知的引擎高出 50%。
2018 年 12 月,快手的 YCNN 深度推理學習引擎獲得了人工智慧科技媒體機器之心設立的 Synced Machine Intelligence Awards 2018「三十大最佳 AI 應用案例」獎項。
榜單詳情請檢視:https://www.jiqizhixin.com/awards
快手「萌面 Kmoji」魔法表情
去年 7 月,快手上線萌面魔法表情,首次將 iphoneX 的 Animoji 玩法普及到全部機型。12 月底,快手又進一步上線了「萌面 Kmoji」魔法表情,透過該功能,使用者能夠用相機拍攝生成自己的專屬臉部 AR 虛擬形象,同時可以精準還原使用者表情,眨眼、張嘴、抬眉毛、吐舌頭等細微動作。這是短影片平臺首次實現使用者自定義 AR 虛擬形象進行拍攝的玩法。
「萌面 Kmoji」可適配全部機型,在任意一部智慧手機上流暢使用。其互動過程比較簡單,讓每個使用者都能使用:開啟最新版快手 APP 的拍攝頁面,在魔法表情「萌面」表情中選擇「建立專屬萌面」進行拍攝,系統就會根據使用者面部特徵,一鍵自動生成和使用者肖似的 AR 形象。使用者也可憑喜好對虛擬形象的五官、皮膚、髮型、裝飾等進行自由調整,打造獨一無二的 AR 形象,「萌面 Kmoji」的捏臉選項中提供了超過 160 餘種素材選項,給使用者更豐富的個性化選擇。
「萌面 Kmoji」背後是快手技術團隊大量的研發工作。首先,基於人臉關鍵點、影像特徵提取等 AI 技術,「萌面 Kmoji」不需要 iPhoneX 等裝置才支援的 3D 結構光資訊,僅憑 2D 視覺資訊即可識別使用者的髮型、臉型、五官形狀、膚色、口紅顏色、鬍鬚等面部屬性資訊,構建使用者專屬的 3D AR 形象,並透過表情引數驅動 3D 形象做出各種細微表情,例如微笑、閉眼、張嘴、吐舌頭等 50 餘種表情,是多模態技術的成功應用。
此外,「萌面 Kmoji」採用了基於物理的真實感渲染演算法,金屬、皮革等模型材質更加真實更具質感,大大提升模型的表現力。同時,快手技術團隊透過對演算法的最佳化,大大降低了執行「萌面 Kmoji」對 CPU、GPU 資源的佔用,提升了執行效率,普通千元手機也可順利執行。
接下來我們來看一下 Kmoji 背後的 AI 技術方案。
萌面 Kmoji 背後的人工智慧技術方案詳解
基於 3D 分析和 2D 資訊融合的人臉屬性和表情識別
個性化萌面系統的實現基礎是人臉屬性和表情識別,這需要 3D 分析以及與 2D 資訊的融合。
對於影像資訊,快手技術團隊利用 3D 重建技術恢復出 3D 結構,同時和 2D 資訊做有機融合,並基於這些重建、分析和融合,進行人臉屬性分析,從各個維度分析出人臉特徵,生成個性化的虛擬形象。同時也會實時進行人臉的表情分析,用於驅動生成的虛擬形象。
在此之上,快手技術團隊還會藉助人體進行相關分析,比如頭髮、肩部等,為和現實場景融合打下基礎,並透過自研的手機端真實感渲染引擎,將活動的個性化萌面實時呈現給使用者。
3D 人臉重建
3D 人臉重建是整個系統中非常重要的一環。快手技術團隊採集了上萬個個體的人臉三維資料,包含各種年齡段、人種、臉型等,以及每個個體對應的幾十種表情資料,建立了幾乎涵蓋所有人臉空間和表情空間的三維人臉資料庫。使用該資料庫可以建模出任意人臉的任意表情。快手技術團隊研發了人臉關鍵點技術,透過百餘個關鍵點刻畫人臉的表情變化,從而重建每個個體各種表情下的三維人臉。另一方面,透過高效的神經網路技術,保證 3D 人臉重建在效能較低的手機上也能實時執行。
人臉屬性感知
在人臉屬性感知方面,快手技術團隊採用神經網路感知人臉細粒度屬性,包含性別、年齡、膚色、臉型、眼睛、嘴巴的細粒度資訊。相比同類產品,快手可做到自動的人臉定製化,同時利用海量人臉資料,多工協同學習,捕捉人臉細微特徵。細粒度屬性的區分是非常困難的,有些問題即使是人眼本身都難以區分,為此快手技術團隊做了很多精細的設計,融合了分類/迴歸/分割等技術,提高自動捏臉的準確度。
人臉表情識別
人臉表情是一種複雜且細微的資訊,人對錶情的感知是非常靈敏的。讓機器識別細微/誇張/靈活/穩定的人臉表情訊號,單靠影像資訊是難以達到的。
快手技術團隊透過 2D 的 RGB 視覺資訊對問題進行建模、求解,獲得人臉關鍵點以及實時重建的三維模型,並把 1D、2D 和 3D 三種不同模態的資訊做建模和對齊,求解出人臉的表情,驅動虛擬形象做各種逼真的動作。同時,得益於深度神經網路模型的量化,透過壓縮和加速解決手機效能問題,該方案可適配任意機型。
高質量渲染
萌面效果的最終呈現離不開渲染,為了獲得高質量的渲染,快手技術團隊採用了先進的 PBR 技術,在移動端實現了 PC 遊戲級畫質;此外,萌面還能夠根據外部環境和使用者的形象特徵智慧化地選擇最適合使用者的材質,以達到最優的渲染效果。
為了獲得更加真實的體驗效果,快手技術團隊引入了物理引擎實現頭髮、布料等柔體的運動效果。為了使使用者獲得最優的體驗,渲染引擎會根據不同機型選擇合適的渲染質量。
移動端預測模型最佳化
為了讓 AI 模型在手機端能夠流暢地執行,快手技術團隊主要做了三方面的最佳化:
- 首先是影像預處理環節:將影像各種預處理操作合併起來,對預處理所涉及到的影像記憶體進行統一分配和回收,以減少記憶體資源的消耗,提高分配使用的效率。
- 充分利用 NEON 加速以及蘋果自帶的 accelerate 加速,整個執行庫只佔用 2M 的空間。
- 最後在保證預測精度的前提下,對 AI 模型進行區域性的 INT8 量化,經過最佳化後,執行速度可提高 1 倍以上,同時 AI 預測模型的佔用空間也壓縮到將近原來的四分之一。
除了虛擬形象之外,基於萌面所使用的這套系統,快手技術團體還進行了擴充套件應用:人像 3D 打光、世界上另一個你。
人像 3D 打光
人像 3D 打光主要利用了實時人臉三維重建技術,該技術利用了人臉引數化先驗模型,根據輸入圖,自動匹配人臉幾何資訊,得到人臉 3D 模型引數,獲得人臉 3D 網格模型。可以根據不同的場景設定不同的光源,利用實時渲染技術對虛擬人臉進行渲染,得到面部光影圖;同時,對輸入人像進行前景分割,得到前景分割蒙版,也可以根據原圖得到其他蒙版資訊;這些蒙版分別作為不同的圖層按照場景需求特定的方式疊加到原圖上,就可以得到打光結果。
世界上的另一個你
「世界上另一個你」是整套系統的另一個線下應用,體驗者走到螢幕前,點選拍攝按鈕,3s 倒數計時後,左邊螢幕鏡頭拍攝定格參與者的面部影像,右邊螢幕透過與影片庫內的數十億快手使用者公開影片進行檢索匹配,百毫秒內匹配出結果,顯示播放 1 個快手端內相似長相的使用者影片。
其核心技術是:
1. 基於幾十億的公開人臉資料,進行人臉屬性分析和識別,提取人臉特徵並做資料結構化,建立了高效的索引,並針對低對比度、模糊、大角度等人臉做了專門的最佳化。
2. 對前端拍攝的人臉影像進行檢測,同樣基於人臉分析模型,提取人臉特徵,並在後臺索引中進行檢索,找到相似度最高的三個人臉影像。
3. 對檢索出的三個人臉影像進行更細粒度的屬性分析,得出對應的年齡、性別、表情等屬性,基於屬性對檢索結果進行重排。
4. 最後前端展示出相似度最高的的人臉。
相比於其他的通用圖片檢索平臺,快手的優勢在於:
• 資料量極大
• 資料分佈相對均勻
• 資料多樣性:不同場景,姿態、光照、表情等資料十分豐富
一向注重資料分析的快手,挖掘到了使用者不想露臉這一需求,「萌面 Kmoji」應運而生。2019 年,快手又會在挖掘使用者需求、滿足使用者體驗上有哪些新的措施,用到哪些技術呢?我們拭目以待。