把影片玩出花的快手來到CVPR ,解密背後AI能力,落地空間有多大?

快手發表於2019-07-24

AI研究,從論文到應用有多遠?

我們見到的不少有趣的AI應用,修改圖片,編輯影片,生成音樂,絕大多數都是乖乖躺在論文裡,好心的作者會開源到GitHub上,分享Demo讓大家體驗。

但感受AI技術帶來的樂趣,門檻還是很高,普通人,比如你老家的大爺大媽,是很難去開啟一個Colab,執行Demo的。

不過,“讓村裡的老大爺體驗到AI樂趣”這件事,快手做到了。無論他們用的是硬體多麼低配的千元機、百元機,透過快手一系列的AI技術積累和演算法最佳化,普通人也能夠體驗到基於人臉識別、肢體識別、手勢識別、人體分割、AR等技術的魔法表情,享受前沿科技帶來的樂趣。

比如讓“哥斯拉”來到工地現場。

把影片玩出花的快手來到CVPR ,解密背後AI能力,落地空間有多大?

來自快手使用者 星雲『Xy』

又比如,用“萌面”魔法表情,闔家換上綠色爆炸頭跳一段最流行的拳擊舞,帶上頭套也不耽誤展示各種表情。

把影片玩出花的快手來到CVPR ,解密背後AI能力,落地空間有多大?來自快手使用者 張小姐教穿搭

近日,快手一項最新AI互動裝置更是引爆了美國加州CVPR2019的會場,引得全場參會者駐足體驗,連聲稱讚:nice! 有趣!甚至被本屆CVPR主席朱松純教授贊為最出色的展廳。

把影片玩出花的快手來到CVPR ,解密背後AI能力,落地空間有多大?

透過多模態融合人臉識別技術、肢體識別技術、手部動作識別三項AI技術的識別結果,該互動裝置能夠讓虛擬3D形象實時複製體驗者面部表情、肢體動作、手部動作。

透過人臉關鍵點識別和人臉表情識別,虛擬形象能跟隨體驗者實時做出微笑、閉眼、張嘴、吐舌頭等50餘種細微表情。

透過三維人臉重建技術,恢復出人臉的三維幾何資訊及人頭在世界座標空間中的姿態,用來精準的驅動人頭轉動和人臉朝向。

此外,也充分考慮了肢體運動的物理限制,有效規避出現真實人體無法完成的動作。

這一技術也早在兩個月前使用在快手APP中,讓多個知名短影片動漫IP形象開啟直播,跟使用者實時互動。一禪小和尚3D形象首次直播的49分鐘時間裡,就獲得了64.9萬個點贊,觀看人數超過25萬人,不少使用者都被暖心的一禪小和尚治癒。

把影片玩出花的快手來到CVPR ,解密背後AI能力,落地空間有多大?

這些多種多樣的AI玩法,背後都有怎樣的技術基礎?

在今年的CVPR上,快手Y-tech西雅圖人工智慧實驗室和FeDA商業化Y-tech聯合實驗室負責人劉霽、快手Y-tech矽谷實驗室負責人王華彥兩位揭開了背後的秘密。

七大支撐,三大實驗室

在快手,AI技術不僅被用於常規的內容分發、廣告推薦上,更為重要的則是短影片、直播相關的內容生產。

這背後,倚賴的是快手的計算機視覺、影像處理、語音識別、多模態理解等多重技術,以及七大AI技術構成的技術平臺與底層支撐。

把影片玩出花的快手來到CVPR ,解密背後AI能力,落地空間有多大?

針對使用者行為的推薦,需要高效的離線及線上學習訓練服的推薦系統,能將萬億級特徵大資料進行全鏈路實時線上學習。這裡,快手的廣告推薦離線訓練系統達到了百T資料,百G特徵,1小時以內訓練完成。

將技術落地到手機端,需要基於深度學習的模型壓縮與AutoML,快手利用自創的端到端模型壓縮演算法,不僅發表了多篇論文,更是線上上的實際表現中,超越了以往常用的經典演算法。

而從遊戲到廣告出價,AI系統的決策能力也在受到考驗,快手的專家團隊用強化學習的方法,將多種智慧決策技術應用在使用者每天看到的短影片中。

而背後的神經網路基礎,則是依靠快手自研的YCNN深度學習推理引擎,針對不同手機硬體做了適配與最佳化,這樣,無論哪裡的使用者,在拍攝各種特效時都能保證實時性和流暢性。

此外,在機器學習方面,快手有自己的機器學習平臺,結合自研的伺服器資源虛擬化技術、RDMA高速網路、CPU/GPU/F- PGA異構計算系統與共享儲存系統,提供了快手公司內部的AI基礎功能。還專門推出亞瑟自助式機器學習開發平臺,用全自助的方式簡化機器學習開發的操作。

有了工具,還需資料的支援。快手自由大資料平臺,提供了海量多模式資料儲存、異構資源排程,以及Tensorflow/Mxnet/XDL/MPI等多種主流機器學習引擎 的分散式化訓練與預測。

在7大平臺之外,快手在美國還有西雅圖、矽谷、聖地亞哥三大實驗室的人才與技術支撐。

快手Y-tech西雅圖人工智慧實驗室

快手Y-tech西雅圖人工智慧實驗室、FeDA商業化Y-tech聯合實驗室負責人劉霽教授從事機器學習以及人工智慧研究已經超過15年了。

此前,劉霽教授和快手創始人宿華一同獲得了2017麻省理工中國35歲以下35位最佳創新人才獎,兩人也剛好在頒獎時相遇。同樣研究機器學習領域,相似的經歷讓他們一見如故。

在這樣的緣分之下,劉霽教授在去年10月加入快手,成為西雅圖兩個實驗室的負責人,同時他現在還在羅切斯特大學計算機系和電子工程系任教。

西雅圖實驗室是快手在美國的三個實驗室之一,主要聚焦於智慧決策問題,承擔了大量快手的主要業務,如商業化廣告推薦、競價、大規模離線訓練平臺,遊戲AI以及遊戲關卡自動生成,手機端的AI模型最佳化以及AutoML,影片影像的分析、理解與生成等。

對於一項AI技術的研發來說,在有資料的基礎上,必須合理的設計模型並訓練,才能讓AI系統真正執行起來。不過,對於快手來說,要讓AI模型服務於使用千元機的大眾群體,模型壓縮是關鍵的一步(Model compression)。

劉霽教授介紹說,讓AI技術落地,越是在這樣效果效能並不是那麼好的機型上面,對技術的挑戰越大,而模型壓縮這項任務就是專門為了讓AI能力服務每一個使用者的關鍵一步,這也是西雅圖實驗室除了訓練AI模型之外主要承當的一項任務。

因此,像這樣的娛樂效果,把熊二帶入現實,或是變身雷神,無論是強大的旗艦機,還是普通的千元機,快手都能保證實現。把影片玩出花的快手來到CVPR ,解密背後AI能力,落地空間有多大?

 來自快手使用者 任性卟卟乖巧

把影片玩出花的快手來到CVPR ,解密背後AI能力,落地空間有多大?

 來自快手使用者 拉麵哥-辛拉麵

除了短影片平臺,快手的業務也涉及廣告和遊戲。在廣告方面,西雅圖實驗室主要運用強化學習等方法,實現廣告的推薦、競價等功能。

劉霽也帶領FeDa商業化Ytech聯合實驗室也在廣告推薦方面做了一些技術革新。此前,針對一種廣告推薦商業化平臺,行業內的通行做法是用CPU做,效率較低。劉霽團隊改良了這一做法,換成了GPU方法來做,單機的效率提高了640多倍。此前需要50臺CPU機器訓練20個小時的資料,現在只要一塊GPU訓練1個小時就夠了。

在遊戲方面,快手擁有近100款自己開發的小遊戲,AI也被應用在遊戲方面,一塊是遊戲AI,另一部分是遊戲關卡的自動生成和難度評定,還有遊戲資料分析和智慧運營。

比如三消類遊戲,需要更新全新的關卡,但人工設計關卡、測試關卡工作量非常大,因此,在快手,透過AI系統來自動生成關卡、自動測試難度,得出的通關率相當精準,誤差率只在7~8%左右。

目前,雖然西雅圖實驗室只有十餘人,但效率非常高,在研究方面,今年已經有7篇論文被各大會議接收;而在落地方面,通常只要一週左右,就能把實驗結果落地,並正式投放市場。

快手Y-tech矽谷實驗室

快手Y-tech矽谷實驗室負責人王華彥本碩皆畢業於北大,後來到史丹佛AI Lab讀博,在加入快手前,王華彥曾在矽谷AI創業公司Vicarious任高階研究員。

矽谷實驗室坐落在史丹佛校園附近,與前面介紹的西雅圖實驗室不同,快手矽谷實驗室更注重計算機視覺,用AI的方式創造各種特效,供使用者在創作短影片的時候增添豐富多彩的內容。

比如有這樣:把影片玩出花的快手來到CVPR ,解密背後AI能力,落地空間有多大?

還可以實現這樣的變化,將一張靜態照片直接變成延時攝影,白天變夜景:

把影片玩出花的快手來到CVPR ,解密背後AI能力,落地空間有多大?

將這些功能實現並部署在使用者的手機上,就是矽谷實驗室的核心技術挑戰。

“這個裡面就有兩個很大的挑戰,一個是我們需要以非常高效的方式來訓練和開發模型,另一個是我們也需要讓這些模型以最高的效率在移動的裝置上執行起來,所以就需要在資料和計算上都達到非常高的效率”王華彥說。

比如,在影片影像分割人物中,現行的方法是透過標註大量影像,作為資料集進行監督學習,訓練出模型。但這種方式並不十分有效,相比人類的只需要少量樣本的學習方式,效率更低。

也正是因此,快手矽谷實驗室正在不斷延攬人才,提升AI演算法,提高資料和計算兩方面的效率,讓模型的訓練和部署都能高效完成。

傳送門

最後,快手Y-Tech西雅圖AI Lab聯合羅切斯特大學等研究者提出了一種基於能耗建模的壓縮方法,該工作的論文也被CVPR2019收錄,需要的朋友可自取~

ECC: Platform-Independent Energy-Constrained Deep Neural Network Compression via a Bilinear Regression Model
作者:Haichuan Yang, Yuhao Zhu, and Ji Liu
https://arxiv.org/abs/1812.01803

相關文章