李巖:AI 技術貫穿於快手的產品骨髓之中

dicksonjyl560101發表於2019-08-06
5月25日-26日,由中國人工智慧學會主辦,南京市麒麟科技創新園管理委員會與京東雲共同承辦的2019全球人工智慧技術大會(2019 GAITC)在南京紫金山莊成功舉行。在第二天的人工智慧與媒體融合前沿論壇上,快手科技多媒體內容理解部負責人李巖發表了主題為《媒體融合:內容與技術的融合》的精彩演講。


演講實錄丨李巖:AI 技術貫穿於快手的產品骨髓之中

李巖 快手科技多媒體內容理解部負責人

以下是李巖的演講實錄:

我的分享分為三部分。第一部分簡單介紹一下快手;第二部分介紹 AI 技術如何幫助使用者提升視訊創作質量,降低創作門檻;第三部分介紹 AI 技術如何理解視訊、理解使用者,並做好分發。

一、快手是什麼

快手是把自己定位成普通人記錄生活和分享生活的社群型產品,通過短視訊、照片以及直播的形式,幫助人們記錄自己的生活,使每一個人都有機會被世界看到,也能看到更廣闊的世界。

快手在 2011 年誕生,今年成立 8 週年,目前 DAU 已達到 2 億。2011 年,GIF 快手是做動圖的工具;2013 年移動網際網路興起,我們看到了短視訊的重要影響和作用;2013 年 7 月,工具型產品轉型為短視訊社群。轉型短視訊社群之後,快手的資料實現了指數級增長,2015 年 1 月快手日活使用者超過 1 000 萬,截止到現在快手的日活使用者已經到達 2 億。在中國的網際網路市場,日活使用者 2 億量級的 APP 非常少。憑藉數億使用者幾年的積累,現在有超過 100 億條短視訊記錄在我們的社群裡,並以每天新增 1 500 萬條短視訊的速度增加,4 年前這個數字只有幾十萬。

在快手裡,使用者記錄了大千世界裡的方方面面,在這裡可以看到很多種真實有力量的生活,有些畫面是我們在大眾媒體看不到的。比如,鴨綠江的放排人在運輸木材,把高山上的木材順著水流運到山下,這種古老的水運方式已經很少被人知曉,在快手被數百萬人關注到。還有城市工地上的“水鬼”,這個職業很小眾,但一二線城市的每一座高樓大廈都需要他們,在建高樓大廈打地基時,需要用電鑽挖幾十米的深坑,電鑽頭掉了需要他們潛到深坑的渾濁泥水中,把電鑽恢復原位。

普通使用者記錄的生活,涵蓋的內容超越了之前記者或者專業人士記錄、調研的範圍。有數億人在快手記錄自己的生活,這裡有當代的百工圖,有全球各地的田野風俗,還有使用者記錄的各式各樣的旅行生活,也有清華、人大等高校教授講解知識進行知識傳播,這些畫面聚集起來就是一幅我們當代生活的清明上河圖。

二、AI 幫助使用者用更低成本創作出更高水平的視訊

AI 技術如何幫助這款短視訊產品做得更好。AI 技術是貫穿於快手的產品骨髓之中,應用在視訊生產、視訊理解、使用者理解到視訊推薦的整個環節。

視訊創作環節,我們希望每個人都能成為自己生活的導演,用手機去記錄生活,而且生成相對較高質量的視訊。如何幫助每個人成為自己的導演?在視訊創作環節快手廣泛應用了 AI 技術,用科技賦能普通使用者,使他們儘可能接近專業製作視訊的水準。

我們希望讓使用者用更低的成本創作出更高水平的視訊,這就需要讓 AI 助力於內容生產。

比如,快手之前上線的一款魔法表情叫做“快手時光機”,使用者可以在幾十秒鐘內看到自己容顏變老的過程。一個人拍自己的視訊是很乏味的,我們希望使用者能夠體驗到自己變老以後的容貌。

又比如,把 AR 技術應用在使用者拍攝視訊的環節,給現實生活的畫面加入一些虛擬元素,這屬於擴增實境,使虛擬世界和現實世界更好的互動,使人們在記錄自己生活時有更多的新奇體驗。

再比如,我們會運用影象相關的演算法,幫助使用者矯正拍攝中出現問題的視訊,如髒鏡頭導致的視訊畫面模糊、光線問題導致的畫面昏暗及畫面偏色的問題。

這些玩法和功能的背後是快手對前沿AI 技術的開發,涉及人體姿態估計、手勢識別、背景分割等多個技術模組。這些都是快手努力將記錄形式變得更加有趣的新嘗試。

這裡有一個挑戰,上述技術都要在手機本地實時地進行計算與渲染。快手擁有數億手機使用者,其機型千差萬別的,這要求我們的演算法必須都能在所有機型上流暢執行,這對 AI 能力的要求非常高,非常消耗計算資源。為了解決這個問題,快手自研了 YCNN 深度推理學習引擎,解決了 AI技術執行受限於使用者裝置計算量的問題。

音訊方面,我們也做了非常多的工作。比如之前專業的人在創作視訊時,編輯字幕是非常痛苦的事情。現在通過語音識別技術,可以幫助視訊製作者自動新增、編輯字幕,而且還可以以各種各樣的形式展示字幕,藉助 AI 技術極大地降低了生成字幕的成本。

在短視訊場景裡音樂起了非常重要的作用。據統計,快手的視訊中有 60%~80%的視訊用背景音樂烘托氣氛。如何選擇恰當的音樂表達心情,是不容易的事情。讓使用者儘量貼合音樂的節奏創作動作,對於使用者的要求非常高,具備很強樂感的人非常少。

為了降低使用者創作視訊時選擇音樂的門檻,我們開發了智慧配樂及 AI 生成音樂的技術。智慧配樂可以根據視訊畫面及使用者畫像為使用者推薦適合視訊畫面,供使用者選擇喜歡的背景音樂。AI 生成音樂通過 AI 的分析演算法,可以感知到視訊畫面中人的動作,然後讓生成的音樂節奏匹配人的動作,這樣極大地降低了使用者創作視訊時選擇音樂的門檻,讓大家更願意創作自己的視訊。

三、用AI 理解視訊、理解使用者,做好分發

上面分享的是 AI 技術如何降低人工創作短視訊的門檻,使普通使用者都可以創作出質量不錯的短視訊。使用者創作並上傳到社群後,我們又做了哪些事情更好地分發這些視訊?

理解視訊非常複雜,對人臉緯度的解析、場景類的解析、音樂類的解析等,這些都是從單個角度進行建模,其實視訊需要多模態的解析。我們需要做到讓機器高效地判斷使用者上傳的視訊是否符合規則的,判斷視訊內容是否原創,以及要做到把視訊精準地匹配給對它感興趣的使用者。

讓機器能夠幫助我們管理好上傳的海量視訊,同時幫我們做好視訊的推薦,且推薦給使用者的視訊是能激發使用者興趣的。這裡還涉及使用者理解,即讓機器理解我們的使用者,其中包括理解使用者在社會學上的特徵,以及使用者的興趣,包括他的短期興趣愛好和中長期興趣愛好,以及海量的能夠代表使用者特徵的更小向量。

在視訊的分發上,不希望頭部的視訊內容佔據太多的曝光,我們用經濟學上的基尼係數控制平臺上使用者之間的“貧富差距”。網際網路上的注意力資源是非常寶貴的,我們希望這種寶貴的資源也能分給普通人,而不是像聚光燈一樣聚集在少量的頭部使用者身上,所以設計了快手的推薦機制,無論是明星還是普通人在快手都是一樣的。快手重視生產者的利益,重視長尾視訊內容的分發。我們希望注意力資源可以向陽光一樣撒給所有生產視訊的使用者,這樣普通人就有機會被更多人關注,能夠感受到被關注、被認可的幸福感。

通過短視訊實現的記錄,讓人與人,以及人與世界連線起來。我們認為,建立這種連線是非常有意義的事情。我們每個人的內心深處都是寂寞的,都希望通過連線去獲得關注、認可,並且能結交朋友。因此,快手使用者之間的關係會粘性更高、更穩固。從整體來看,可以提升網民之間的信任。

(本報告根據速記整理)


CAAI原創 丨 作者李巖


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/29829936/viewspace-2652771/,如需轉載,請註明出處,否則將追究法律責任。

相關文章