撥開「短影片第一股」的外表,我們看見了一家強悍的「科技公司」

机器之心發表於2020-11-24

撥開「短影片第一股」的外表,我們看見了一家強悍的「科技公司」

11 月 6 日,國民短影片社群快手公佈了招股書。

令人驚訝的一個數字是,2020 年上半年快手研發投入高達 23 億,佔同期總收入比例高達 8.9%。

我們一般不會將短影片歸入高科技行業之列,但是仔細想想,短影片中的科技應用場景其實非常多。比如影片拍攝特效、千人千面的推薦演算法、高速低延時的網路基礎設施等。

而快手幾乎是從成立初始就開始這些技術佈局,從生產與消費的體驗,到對音影片內容的理解以及針對使用者的個性化推送,再到技術的基礎設施建設,佈局之深厚超乎想象。

現在,撥開「短影片的第一股」的外表,是時候來重新評估快手這家「技術公司」了。

一、內容生產:自研深度學習推理引擎,AI「飛入尋常百姓家」

用快手拍攝短影片,一個非常大的樂趣是能實現各種各樣奇妙的 AI 特效。

基於強大的影像 AI 技術,快手在移動端實現了結合自動人像識別、分割、背景生成的實時隱身特效,使用者在手機端就可以創作各種有趣的作品。

比如,快手最新上線的「變身童話公主」系列的魔法表情。

撥開「短影片第一股」的外表,我們看見了一家強悍的「科技公司」

再比如,從天而降的「隱身魔法」是結合單圖影像修復和幀間影像對齊的影片修復演算法,在短影片行業中的首次應用。

撥開「短影片第一股」的外表,我們看見了一家強悍的「科技公司」

基於手機上的攝像頭和感測器,快手的移動端混合現實技術幾乎可以讓每一部手機都變成可以實時感知空間資訊的裝置,實現虛擬元素和真實環境的自然互動和呈現。

該技術可讓快手使用者不需要複雜的裝置,在手機上就能實現基於空間的創意和沉浸式互動體驗。

基於深度學習 GAN 技術,快手 2019 年在國內首發了「娃娃臉」特效,使用該表情就能讓臉一鍵回到幼兒時期。在此基礎上還有「變性別」「變手繪」以及即將出現的「變童話」等各種應用。

以上都是快手在短影片行的業首發應用,具有技術先進性。

為保持應用的創新性,快手 2018 年就成立了 AI 實驗室 Y-tech,招募了許多技術大牛專門負責前沿演算法研究,且和魔法表情部門的特效團隊合作,加入了產品經理,讓技術研究和產品落地無縫對接。

在落地實踐上,為克服技術在手機端實時處理的障礙,Y-tech 還自研了一套演算法壓縮模型,能在有限的計算以及記憶體資源條件下,依然把模型的計算量降到最小,且不影響演算法效果。

並且,為讓特效在所有的手機上都能執行,Y-tech 同時也自主研發了一款深度學習推理引擎 YCNN

YCNN 能支援各種型號的 CPU、GPU 和 NPU 等底層硬體,且能根據不同的手機算力提供大小不同的特定模型,透過模型下發的方式將裝置上的最好算力與相應的模型相匹配。

撥開「短影片第一股」的外表,我們看見了一家強悍的「科技公司」

YCNN 整體架構。

推理引擎最佳化方面,工程師也會針對不同裝置端有針對性地進行運算元最佳化,以最大化利用裝置效能。

此外,YCNN 引擎還具有完善的 AI 工具鏈,支援 PyTorch,TF/TFlite 模型直接轉換為 YCNN 模型,並支援訓練時模型量化與基於硬體的模型結構搜尋。綜合效能比業界引擎有 10% 左右的優勢。

二、音影片傳輸:自研傳輸協議 KTP,與直播卡頓較勁

 以「擁抱每一種生活」為 slogan 的快手,使用者分佈在全球各地。開啟 App,經常會發現「老鐵們」在山溝、田間地頭甚至荒野裡開直播,但很少出現網路卡頓的情況。

這裡面就涉及到快手以「私有傳輸協議 KTP 和流式多位元速率標準 LAS」為代表的核心音影片傳輸技術。

這種技術不僅能保證弱網下作品釋出的成功率、直播推流的穩定性與平滑性、視訊會議等 RTC 應用的低延遲與流暢性,還能支援端到端高畫質 1080P 影片的拍攝、製作、上傳和播放,並能依據不同使用者的網路狀態與裝置效能,動態選擇最佳的清晰度,在觀看體驗的流暢性、清晰度、低延遲之間取得平衡。

具體解釋,媒體內容從生產到被看見必然要經歷網路分發的過程。手機將音影片內容經過採集、編碼、處理後,傳輸到媒體伺服器,媒體伺服器與 CDN 網路互聯,進而由 CND 分發給快手的使用者進行消費。

整個網路傳輸過程分為上行(媒體內容從主播 / 創作者到媒體伺服器)和下行(媒體內容從 CDN 到觀眾),針對上下行,快手分別自研了傳輸協議 KTP 與多位元速率標準 LAS 來最佳化端到端的使用者體驗

快手傳輸協議 KTP

快手的業務複雜,有作品釋出、直播推流、PK / 連麥、視訊會議、多人互動等等,不同的業務對傳輸效能的需求各不一樣。

例如作品釋出要求高吞吐、高可靠、低耗時,直播推流則對低延遲、高平穩性有需求。目前以後的協議與演算法,都只關注到某一點,難以滿足快手的需求。為此,快手設計了私有傳輸協議 KTP,其架構如下圖所示:

撥開「短影片第一股」的外表,我們看見了一家強悍的「科技公司」

KTP 基於 UDP,從而具有非常強的靈活性,快手的工程師和演算法專家們可以在其之上設計各種各樣的傳輸演算法。

KTP 分為服務端和客戶端,每端又分為傳輸控制層與業務感知層,在傳輸控制層,包含大量的傳輸演算法,可適應各種網路狀態與需求,在傳輸控制層之上是業務感知層,該層是業務與網路的橋樑,透過感知業務的特性與網路的的結合,實現跨層的信源通道聯合最佳化。

目前,KTP 已全面用於快手的各項業務,並取得非常顯著的收益,其效能也處於業界領先水平。例如,與 QUIC\SRT 等相比,KTP 能顯著降低作品釋出耗時,降低直播推流卡頓,提升清晰度。與業界常見的 RTC 產品相比,KTP 能獲得更多的延遲,更強的抗弱網能力。

KTP 採用可插拔的設計方式,所有的演算法和功能模組相互解耦,從而極大了提升可 KTP 的靈活性與擴充套件性。同時結合快手強大的 A/B 測試系統,任何演算法和改動,都能快速的線上上得到最真實的反饋,從而使得 KTP 保持了領先性與實用性。

LAS:Live Adaptive Streaming

複雜的網路環境導致單一清晰度難以滿足不同使用者的需求。為了提升所有使用者的體驗,快手研發了多位元速率自適應策略,讓不同的使用者,在各自當前的網路條件下,獲得最佳的體驗。

針對直播,快手自研了基於流式的直播多位元速率標準 LAS,並正式對外開源。

目前,各大雲廠商均支援 LAS,在雲端保障 LAS 服務,咋客戶端,快手也開源 Web 端解決方案,並與 B 站共建,聯合開源了移動端解決方案。

與大家熟知的多位元速率標準 HLS 相比,如下圖所示,LAS 能獲得更低延遲、更高畫質晰度、更流暢的直播體驗。

撥開「短影片第一股」的外表,我們看見了一家強悍的「科技公司」

LAS 的優勢。

除了傳輸協議,快手在媒體消費體驗上的最佳化與研究也可圈可點:

例如快手先後上線了 60 幀、HDR 等一系列提升影片畫質的技術,而且快手現在支援 VR 影片觀看,只要下載快手 APP,相當於擁有了一部 VR 終端

在編解碼領域,位於聖地亞哥的快手音影片標準實驗室提交的多個提案已經獲得了全球聯合倡議組織 JVET(ITU-T VCEG 及 ISO/IEC MPEG 聯合視訊探索小組)採納,為其主要貢獻者之一

在應用方面,快手影片解碼標準(KVC)已經於 2020 年 3 月開始大規模部署上線。在主觀質量相同的情況下,KVC 可大幅縮減媒體檔案的大小,並提高影片播放的流暢度。

三、內容理解:多模態技術為更好的內容保駕護航

當然,作為國內數一數二的短影片平臺,僅能讓使用者看到好看、清晰的影片是遠遠不夠的。

隨著影片和使用者數量的增多,平臺要能保證影片的原創性和安全性,還要能根據使用者個性化需求推薦不同的影片。這都涉及到平臺對音影片內容和使用者的理解,所以,深度學習技術在快手中出現了。

2015 年是人工智慧爆發的一年,也正是這一年快手成立了第一支深度學習團隊。2016 年深度學習部門開始涉獵語音、文字、音樂等多種媒體形式,所以名稱改為「多媒體理解組」(Multimedia understanding,簡稱 MMU)。

由於快手是較早對影片內容分析產生強烈剛需的公司,所以 MMU 團隊基本上是從零起步,從「定義一個合理的標籤體系」開始理解使用者產出的錯綜複雜的音影片內容。兩大應用方向包括人機互動與資訊分發。

從具體場景說,首先多模態技術會幫助使用者實現更好的影片創作。

在這方面,快手目前是中國短影片行業首家成功大規模應用端到端自動語音識別系統的公司

一般的語音合成應用都是基於引數語音合成演算法,合成的語音比較僵硬。MMU 團隊則是採用並改進完全端到端的神經網路模型,可以讓合成語音效果更自然,且神經網路結構能利用硬體平行計算能力,支援實時合成語音。

為最大限度保留配音角色說話韻律風格,團隊還對演算法進行一系列除錯,比如在生成演算法中加入風格控制迴歸編碼網路以體現韻律性;用基於深度神經網路的聲碼器以還原聲音特點等。

技術支援下,快手有很多有趣的「聲音」功能。典型應用是今年快影上線的智慧配音功能,使用者只要輸入文字,軟體就能自動將之轉化為高質量的影片配音,還有多位「發音人」和方言可供選擇。

還有去年上線快手直播間的語音助理「小快」,可以識別語音命令來放音樂、講笑話,活躍直播間氣氛。

另外,MMU 團隊還開發了「根據影片內容自動生成音樂」功能,能讓影片畫面與音樂節奏更匹配,為此,團隊還特地招募了懂音樂的人和工程師一起整合創新。

創作之外,多模態技術也能精準的理解影片內容,幫助創造更好的分享機制。

在這裡面 MMU 團隊做了兩個比較有意思的事:第一是強調音訊和視覺的多模態綜合的建模,而不僅僅是單獨的視覺或者音訊

第二快手擁有非常多的使用者資料,這是不在傳統多媒體內容研究範疇裡的,但快手卻可以很好地利用這些資料做內容理解。快手會融合行為資料和內容資料進行綜合建模,在同樣大小的人工標註量前提下,快手利用海量的使用者行為資料能夠獲得比純內容模型更好的效能。

撥開「短影片第一股」的外表,我們看見了一家強悍的「科技公司」

內容行為資料融合。

如今,MMU 團隊每天可實時分析逾 1500 萬條影片及逾百萬小時直播內容,已經開發出人工智慧驅動的內容演算法系統,可對平臺海量資料(文字、圖片、音訊及影片)進行實時多維分析及篩選,還可以實時過濾不當和非法內容以及可能侵犯第三方智慧財產權的內容。

四、個性化推薦:強化學習擺脫推薦內容同質化

對於所有的短影片平臺來說,「個性化推薦」都是最影響使用者感受的環節。

所以,除了要理解內容外,平臺還要能將內容推給最合適的客戶。在這方面快手做的也不錯。

從介面設計看,快手的推薦引擎是全球極少數的雙列帶縮圖以及上下滑個性化推送介面設計的大型推薦引擎之一。

縮圖可讓使用者可根據喜好快速挑選想要瀏覽的短影片及直播,上下滑個性化推送則支援上滑螢幕時自動播放下一個影片,瀏覽更順暢。

另外,快手也是短影片行業首批極少數將深度強化學習演算法大規模應用於影片推薦的公司之一,其推薦引擎基於自研圖神經網路(KGNN)建立。

個性化推薦一般分為兩個步驟,先是「召回」,從千萬量級的影片庫中基於簡單的模型竄出數百相關候選影片,再「排序」,用複雜模型最終挑選出若干影片(一般數量為十)返回給使用者。

在排序的過程中,傳統推薦排序演算法通常會採用 point-wise 排序框架,基於經驗公式或者排序模型,「獨立」地預估每個候選影片的排序分數,從高到低擷取 top N 影片返回。

獨立打分的方法忽略了相鄰影片間的影響,傾向於將同類影片排到前面,造成推薦內容同質化,長此以往會使使用者對內容厭倦。

所以,快手技術團隊提出了基於強化學習的序列化排序框架,將輸出 N 個影片序列的任務建模為連續進行 N 次決策的過程。強化學習排序模型端到端的完成整個推薦排序過程,從數百影片候選集中挑選出由數十個影片組成的有序列表,返回展示給使用者

撥開「短影片第一股」的外表,我們看見了一家強悍的「科技公司」

傳統排序演算法 VS 強化學習演算法。

強化學習排序過程中,每次挑選的目標都是最大化影片序列的整體獎勵,保證推薦內容的多樣性。

另外,強化學習排序演算法還可以保證更好的推薦精準性與實施性,使用者每次反饋(點選、點贊、轉發)後,系統都會透過強化學習演算法完成排序模型的線上更新。

五、快手的科技基礎設施

身為一家科技公司,快手能實現以上技術最離不開的就是「基礎設施」。

首先是人才,快手在全球各地招募了很多非常優秀的技術人才。根據招股書,截至 2020 年 6 月 30 日,快手擁有逾 5000 名研發人員,超過 2300 名研發人員擁有碩士或以上學位。

2017 年、2018 年、2019 年及截至 2020 年 6 月 30 日,快手研發開支分別為 476.6 百萬元、18 億元、29 億元及 23 億元,分別佔同期經營開支的 23.1%、26.8%、21.5% 及 13.6%。

並且,快手在全球各地都設有研發中心。人工智慧研究中心 Y-tech 專門致力於計算機視覺深度學習等前沿領域研究,完善快手 AR、濾鏡等技術驅動的特效功能。其研究中心位於北京總部,在杭州和美國帕洛阿爾託均設有辦公室。

為了擴充海外佈局,快手也在美國設立了研發中心。總部在矽谷,這裡整合了快手多個重要團隊,包括 Y-Tech 、圖形 AI、多媒體演算法和異構計算實驗室。

撥開「短影片第一股」的外表,我們看見了一家強悍的「科技公司」

位於史丹佛大學附近的快手研發中心。

西雅圖實驗室旨在吸引美國優秀人才,建立技術壁壘,承擔專案包括商業化廣告推薦、遊戲 AI 及策略最佳化、手機端 AI 模型效率最佳化。

聖地亞哥影片編碼標準實驗室則主要致力於探索新一代影片壓縮技術,研究方向包括影片壓縮演算法、影片處理、影片內容分析、機器學習及質量評測等。

並且,快手也已經和清華大學聯合成立了「清華大學 - 快手未來媒體資料聯合研究院」,用產學研結合的方式培養學生用 AI 解決產品上的問題。

在網路基礎設施方面,快手目前擁有超過 24 萬臺伺服器,分佈在全國 22 個網路資料中心,資料總量是 EB 級別。

此外,快手還計劃在全國佈局超大規模資料中心,6 月已經和烏蘭察布資料中心專案舉行簽約儀式,專案投資達百億元,預計明年投入使用

資料中心外,為提高計算效率,快手還針對演算法最佳化,自研基於 CPU/GPU 異構的計算體系,進一步提升演算法的執行效率。

六、堅持使用者導向,追求技術的「極致」

如果總結快手技術團隊的特徵,可以用兩個詞來形容,「使用者導向」和「追求極致」。

技術人員想問題通常會從技術角度出發,但快手會有意識的培養工程師的反向思維能力,考慮使用者的需求。

最簡單的方式就是研發人員會成為產品的深度使用者,自己從使用者角度推敲和最佳化,跟產品經理一起深入研討如何改進得更好。

比如,在主播與粉絲的音影片連線場景中,很多直播團隊在 2016 年就上線了連麥功能。而快手剛上線直播時,產品團隊從使用者角度做了評估:直接上線影片連麥可能會給使用者帶來社交壓力,如何最小化使用者開通連麥的壓力?

最容易接受的形式是語音連麥,所以快手最先上線的是技術上簡單一些的語音連麥,實時證明使用者結束度很高,等到反饋「露臉」需求時,快手才在 2017 年上線影片連麥。

追求極致則是快手技術團隊一直以來的原則。2019 年快手 CEO 宿華就在年會上強調過,「不追求極致,我們就贏不了。」

所以,在每一個看似微小的功能背後,快手都會投入非常大的資源,用技術打造極致的使用者體驗。

正如快手音影片技術負責人於冰曾對媒體說的,「我們給了最優秀的技術人員一個很好的機會——把特別細的細節做好,不像有的產品只做到 80 分就夠了。」

相關文章