數學和程式設計能力,馬維英說這是位元組跳動AI Lab招人的首要準則

思源發表於2018-11-16

在開放日上,現場 Demo 展現了很多熟悉而又炫酷的應用。你知道怎樣利用聚類演算法和 CNN 從短視訊從抽取最好看的小姐姐麼?你知道怎樣用單攝手機拍出柔順的背景虛化圖麼?這些可能用耳熟能詳的演算法就能完成,只不過實驗室會將它們做到極致並嵌入到 APP 中。

逛完 Demo 展示後,馬維英介紹了很多實驗室的具體資訊,包括實驗室的目標、發展情況和突出成果等。馬維英表示 AI Lab 的目標是為今日頭條和抖音等產品提供核心技術支援,並滿足現在到未來 2-5 年的產品和業務發展需要。

有這麼優秀的科學家和資源,你想不想來場面試?馬維英隨後就介紹了 AI 實驗室的招人經驗,所以你的數學和程式碼都準備好了麼?

數學足夠好是做 AI 研究的基礎

從微軟到今日頭條,馬維英的「看人」技能非常純熟,他會比較特別地觀察應聘者的各項素質。在開放日上,他也分享了 AI Lab 及個人面試的擇人準則。馬維英表示首先會考慮應聘者的數學基礎是不是非常好,是不是能深入瞭解問題的本質。因此應聘者的數學功底要好,對數學模型有比較好的直覺和理解。也就是說應聘者不能只是會簡簡單單地應用,把模型或演算法當作一個黑箱進行調參,而不瞭解具體過程。如果有比較好的數學基礎,那麼模型的理論過程、最優化方法、損失函式調優等都可以結合實際問題進行修正,從而獲得更好的效能。

其次馬維英會比較看重工程實踐能力,所以 AI Lab 這邊也會考慮應聘者的程式設計能力。馬維英表示我們常常會有非常好的想法,但很可能沒有實踐能力,這是不夠的。最後,馬維英還會考察應聘者的態度,比如說團隊合作、人際溝通和表達能力等,這是一些和軟素質比較相關的東西。

而從個人角度來看,馬維英說:「其實我這麼多年招了這麼多人,在面試中會非常重視眼神的交流。在面試過程中,我大概通過十多分鐘就能判斷面試者的思維是不是比較敏捷、回答過程中是不是比較坦誠等。因為有大量的經驗,我通過對話可以看到面試者不太容易看到的一面。」

炫酷的演算法應用

有數學還不夠,你需要把它做成產品,所以你可以先看看 AI Lab 做出來的 Demo。其實它們很多都已經應用到實際產品中,例如 2018 年世界盃期間接入了今日頭條直播間的視訊分析、接入抖音的視訊內容稽核、嵌入西瓜視訊的封面生成等,不過這裡只重點介紹了視訊理解與背景虛化兩種應用。

曾經背景虛化只是單反的專利,通過大光圈獲得像奶油般柔滑的背景。當然現在手機也可以藉助雙攝像頭完成背景虛化,但如果只有單攝像頭或單張圖片,又如何藉助演算法實現背景虛化呢。位元組跳動 AI 實驗室展示了這樣一種演算法,它可以預測高清影象的「深度資訊」,也就是從近到遠區分前景與背景。有了這種深度資訊,我們就能很自然地生成對應的背景虛化影象。

如下所示,直觀而言模型首先會將高清圖壓縮為低清輸入圖,然後使用深度殘差網路抽取到深度圖,這裡先壓縮為低清圖再做卷積運算可以大大降低計算力。然後我們可以根據深度圖和低清輸入圖渲染低清背景虛化圖,並在最後利用高清原圖、低清輸入圖、深度圖和低清背景虛化圖構建高清背景虛化圖。這裡在訓練過程中起到監督作用的是深度圖,模型會盡可能正確預測整張圖的深度資訊,後面根據深度資訊和原圖生成背景虛化圖就只是合成過程了。

數學和程式設計能力,馬維英說這是位元組跳動AI Lab招人的首要準則

其實預測深度圖有點類似於影象分割任務,只不過這種逐畫素的分類問題預測的是所有畫素離鏡頭的距離。具體而言如上圖綠色的 Depth Prediction 模組所示,模型不僅會使用全連線網路直接預測深度,同時還會使用額外的前景分割任務獲得更準確的分割邊界線。位元組跳動 AI 實驗室在現場展示了這一方法的實際效果,雖然不能說完美,但一般人是看不出問題的。

除了影象,視訊處理也有非常有意思的應用。一般在上傳視訊到抖音或西瓜視訊後,我們希望能有一張好看的封面,因為漂亮的事物總是能吸引別人點開視訊。但是機器學習系統能幫我們挑選出最漂亮的封面嗎?答案是可以的,位元組跳動實驗室展示的這個應用甚至可以從視訊中選出最好看的視訊幀,並裁剪為合適的大小。

下圖展示了挑選封面的主要做法,當我們上傳一段視訊後,模型首先會對不同的視訊幀做一個聚類處理。因為視訊是連續的影象,聚類過程能將類似的視訊幀都聚在一起,因此從不同的叢集取樣一些視訊幀就能挑選出有代表性的影象。然後把這些影象饋送到深度卷積神經網路並度量每一張影象的質量,這樣就能挑選出最「漂亮」的影象。最後只要進行適當地裁剪就行了,當然這樣的裁剪也會盡可能保留主體。

數學和程式設計能力,馬維英說這是位元組跳動AI Lab招人的首要準則

在現場 Demo 展示中,應用可以快速推斷出短視訊中質量最高的影象,它會給出評分前三的視訊幀。除此之外,位元組跳動 AI 實驗室還能利用深度卷積神經網路抽取關鍵視訊片段,並總結為更精簡的短視訊。

現場 Demo 展示還有很多炫酷的應用與方法,例如在足球直播中,實驗室構建的系統能追蹤球員與足球,並估計相機所在的位置及拍攝的球場區域。這一系統在 2018 年世界盃期間接入了今日頭條客戶端的直播間,它還能檢測精彩片段,併為 Xiaoming Bot 寫作機器人提供影象素材。

其實 Demo 中的很多應用都需要部署到移動端,例如給人臉加各種特效的激萌或抖音等。為此,實驗室展示了一種快速輕量級的人臉識別方法。他們會使用經量化的修正版 MobileNet V2,並採用知識蒸餾方法從預訓練的大模型中學習更優秀的精煉模型。因此在實際應用中能以毫秒級的延遲完成人臉識別任務,而對人臉再加特效也就非常迅速了。

經過這麼多的展示,總的而言位元組跳動有非常多優秀的產品,而這些產品正需要新興的機器學習乃至深度學習技術提供更多「炫酷」的功能。

相關文章