騰訊優圖實驗室賈佳亞:加入優圖第一年

邱陸陸發表於2018-09-18

賈佳亞是 2017 年 5 月加入優圖實驗室,擔任總經理一職的。1 年 3 個月之後,他以「可以看到、可以感受到、可以用到」為標準,精選了優圖實驗室的一眾技術,在上海完成了實驗室的第一次對外公開亮相。

這是一場非常罕見的、完全由技術團隊主導的釋出會。他介紹了優圖的「一個核心、四大方向、十個領域」,給出了具體到每一個領域的大量案例,(演講全文見文末)。在會後,賈佳亞接受了機器之心的採訪,我們聊了聊優圖五花八門的成果的誕生之路,以及他從學界跳轉業界之後,夙興夜寐的第一年。

機器之心:您加入優圖實驗室剛好一年時間,能否介紹一下您在優圖這一年的工作?

今天我們在峰會現場做了一個釋出會,希望讓外界對技術比較關注的朋友們能夠近距離看一看高科技和產業落地較好結合的一個場景模式。而今天釋出的新內容絕大部分是我們團隊在過去一年做出的。我從去年加入優圖就開始了一系列舉措,其中主要在於人才儲備,系統構架和合理的管理方式這幾方面。

最開始我一個人到今天管理著有幾十位的博士和相當數量的開發人員團隊 - 我們完成了整個中層、底層構架的構建,接入了騰訊雲,在公司內部的日呼叫量超過兩億次。這一年裡我們做的很多事情是以前很難想象的。

初期我的大部分精力投入在組建團隊上面,從去年五、六月份開始,在公司其他同事的幫助下,我們吸引了一些學術水平非常高的博士、碩士加入,這是奠定團隊發展的契機。

我們承接了一些 AI 需求,大多數都是時間緊、任務急。

年底的時候我們十幾個人已經在構建三、四個大型的專案了。同時我們在把之前積累的演算法進行體系化的構建,能夠在之後的專案上把之前的積累落到實處。

我們把很多視覺領域重要的演算法變成了服務提供給其他團隊。我們的服務呼叫起來非常簡單:我們有整套的資料理解、清洗,模型構建,以及在生產環節快速的伺服器端和移動端呼叫。

以前騰訊有不少團隊都有少量的研發人員在做同方向的開發工作,後來和我們合作慢慢發現,優圖的服務確實在準確度,穩定性和執行效率上都非常高,所以逐漸主動地、信賴地把業務交給我們完成,改為直接呼叫我們的服務。這是一個很大的變化。因為少量的高階研發人員只能靠自己的力量每年完成一兩個小專案,但是在我們團隊提供中臺計算環境、資料和流程化管理的前提下,科研人員的研發能力可以迅速轉化為生產力。

機器之心:在釋出會上,您透露優圖將會圍繞四大方向(社交娛樂、工業生產、社會進步、前沿探索)和十個領域(臉部操作、OCR、零售、自動駕駛等)展開工作,這些方向和領域是如何確定的?

這是一個瞭解、傳播、決策,經過反饋之後再迭代的過程。

我剛加入優圖的時候,其他團隊並不知道我們能做什麼,而且可能比較傾向自研。因此首先我先定義優圖新增的能力範圍,讓大家有一個基本認識。有了認識之後,我們會接到一些需求,這些需求可能並不「高階」,比較瑣碎。比如最常見的影像分類任務,這已經不是學界前沿了,但我們把它踏踏實實做出來,爭取不但能夠滿足產品團隊的需求,甚至讓準確率和執行效率高出目標 20%。同時我們不僅在內部評測完全合格,也做到了業界最好水平。這樣口碑就迅速積累起來。

口碑建立之後,有更多的團隊、公司、媒體知道我們在做什麼,來了更多需求。但是人力仍然非常有限,這時我們需要在大量的需求之間進行決擇。我們選擇任務時考慮的因素有三點:第一是必須要可交付,以及交付後應用範圍有多大;第二是關聯性,這個任務和之前做過的任務是否有關聯,如果有,那我們可以高效率地快速完成;第三是匹配性,專案的要求和內部的科研人的能力是否匹配。

其中決定因素還是場景足夠大,最直接的體現是一個功能實現之後呼叫量會特別大,比如娛樂方面。其他例如自動駕駛中的感知技術,會認為有巨大的隱含價值,這樣的專案我們也會考慮。

機器之心:優圖的團隊現在有多大規模?如何在不同專案之間進行人員分配?

我們在深圳和香港大約有一百多名研究人員,在上海和合肥也有一百多人。除此之外還有全球高校在讀的很多碩士、博士生,願意加入我們短期或者中期一起做科研。

我們自研了一套科學的管理方式,能夠確保能夠找到合適的人去做專案。一個任務,最短甚至可以以「兩個星期上線一個版本」的速度去完成,這都依賴對中間資源的合理調配。

機器之心:如何看待其他團隊對接過來的需求?如何從技術角度定義需求?技術人員會傾向於從技術出發「拿著錘子找釘子」,而產品需求方會因為對技術的理解不深入提出不適合現有技術完成的需求,如何彌合這一鴻溝?

在學術界,因為每個團隊大小有限,而每個學生總有技術偏向,很多學生畢業後在這個學校的技術很難「傳承」給團隊,容易有拿著錘子找釘子的情況。但是對優圖而言反而沒有這個問題。

這是因為第一,我們不斷有能力強的同事加入進來。視覺技術方面我們已經很少有優圖完全沒有涉獵的部分了。從自動駕駛感知的核心技術到醫療影像分割,我們把技術補充得很全面了。我們不止有一個「錘子」,而是有一個「工具箱」。

第二,騰訊的業務涉獵非常廣泛,內部外部有不計其數的需求,從遊戲系統到推薦系統,其中很多關鍵技術都對視覺有依賴。有各種各樣的「釘子」,甚至因為人手不足,我們需要挑「釘子」。

機器之心:您在演講中提到,實現一個需求「不簡單」的地方往往在與實際中的具體問題,比如影像過曝、欠曝、部分遮擋等。能否說明如何把技術變成實際的解決方案?

確實,需求都是非常抽象、概念化的,但是我們要把它細化、具象化,變成一個技術的整合,分而治之。

我覺得這是做學術的高階人才來工業界的優勢:學術界的資深學者知識儲備是全面的。雖然我的最強研究成果只是計算機視覺中的一部分,但是我對整個領域都有比較清楚的認識。我知道影像識別現在最高的準確率是多少、影像分割經歷了語義分割、個體分割、全景分割之後是否有新概念提出來。這種對新概念和方向的把握確保我們可以把一個不專業的需求分解,轉化成技術語言和模組,然後清楚怎麼找每一個問題的解決方案。

我的團隊沒有遇到過「不知道怎麼做」的問題,我們唯一的問題是「如何比業界其他團隊做得更好」或者「如何創新地解決這個問題」。

機器之心:在相似的問題、場景下,使用相似的方法,如何做到「比業界做得更好」?

這就是人才儲備的重要性了。

對於一些比較成熟的領域,學界產生了一些非常基礎的、有效的、可以合理利用的模型,但它們並不適合在工業界直接採用。比如 ResNet 是做影像分類的常用模型。但是 ResNet 沒有考慮執行效率,沒有考慮類別間的距離問題。比如在缺陷檢查方面,我們要考慮一些看起來非常相似,但是實際上是兩類缺陷的情況,這時候這個問題就變成「細顆粒度分類」,就變成一個不適合用 ResNet 解決的問題。

缺陷檢測模型還需要考慮光照情況、遮擋情況,直接用開源模型改一改,不可能產生好的效果,這時就需要能力非常強的研發人員,去針對特定問題設計新的模組和環節,例如增加一些新的模組、跳轉、迴圈方式或者特徵,這是一個沒有做過特定方向的深度學習研發人員所不可能設計出來的。

這也是為什麼市場上有很多公司說自己在做人工智慧,但是獨角獸只有寥寥幾家。大公司裡的實力一流的團隊也很少。因為想要把全部前沿 AI 問題做深做透,接觸各種業務,就需要非常強的人才儲備和管理。

機器之心:現在最佳化模型的做法有什麼方法論出現嗎?

現在很多研究者,包括我們自己,都在進行相關的研究。

舉個例子,人類學科學家發現,5000 年以來,人類的智商是平穩,甚至稍微下降的。但是即使現在我們要學很多知識、掌握很多新工具的用法才能應付日常生活,人們也沒有覺得是很大的智力負擔。這是因為人腦是一個自適應的網路系統:它的基本組成構件搭成以後,整個通路的構成、引數的設定都是自適應的。5000 年前的知識,在這個框架生成了一個結果,使我們祖先在野蠻的大自然裡活了下來。5000 年以後的文明環境需要的學習語文,數學,科技也可以在同樣的框架下生成一個新的迴路,把這些知識儲存運用起來。

類似地,將來不會每個領域都由各自的模型「統治」的局面,而是形成一種通用智慧,把所有的框架最佳化到最好,合而為一。現在最佳化方法還處於 AI「初級階段」,主要靠科研人員的專業知識積累。

機器之心:如何總結加入優圖的這一年?新的一年有哪些計劃?

在加入優圖之前,我與工業界的合作大多都侷限在短期的專案,並沒有構建一個全面的團隊。所以我加入優圖的目標是在工業界不侷限於簡單地完成一兩個專案,而是做到在每段時間目標不明確的情況下,仍然把科研落地產品化的事情做好。

而想要把演算法積累變成可以讓大家感受到、用到的產品和元素,依靠的是一個體系化的構建過程。我們總計超過二百人的團隊和騰訊內部的構架部門、騰訊雲一起搭建了叢集環境,讓深度學習的網路能夠在大規模並行系統上開展起來,而在此基礎上,輔以精心設計的管理人員層級架構,研究人員得以專注於演算法和技術,以及演算法在各個端的部署,研發出了種種看得見摸得著的演算法。

當然現在我仍然留了一部分時間在學校。即使公司的事情再忙,「培養下一代人才」也仍然是非常重要的一個任務。我希望能把我們積累的知識、能力和方向「傳承」給下一代學生,讓他們去探索一些前所未有的新內容。

未來一年首先把這四個大的方向上的投入夯實,在娛樂、OCR、工業檢測等等領域裡,我們已經有一個好的開局,但是還有很長的路要走,希望明年這個時候,我們可以再次告訴大家,即使在同樣的領域,我們也取得了一些不一樣的、有開拓性的成績。

演講實錄:

首先謝謝各位的蒞臨,優圖實驗室過去兩、三年發生了非常大的變革,接下來的時間我會為大家介紹優圖實驗室在過去一年多的時間裡做了什麼。

大家有沒有意識到,這是優圖實驗室第一次主動地對外公開亮相?而大家回想一下,在你的記憶裡面有沒有任何一家公司的技術團隊出來做對外釋出會的?在我的記憶裡,我是沒有參加過也沒有聽說過。今天我們的釋出會也算是開了一個先河。

技術團隊為什麼難以開釋出會?有這樣幾個重要原因:第一,如果技術團隊的技術儲備很單一,則很難講這個技術到底有多少用;第二,如果技術不深入,則很難講得清前因後果;第三,如果技術不領先、不創新,只是一個簡單的實現,也無法講出技術有多重要。

所以我總結了一下,我們的技術有三個特點:

第一,優圖所做的事情,很多的結果、目標都能看到。

第二,優圖實驗室的產品和技術是能感受到的,希望大家透過我的演講感受到優圖實驗室的溫度和力量。

第三,今天釋出的東西都可以用到,不管是個人使用者還是企業使用者,我們都提供了一些可以大規模使用我們技術的方法。

首先給大家看一些數字,講講優圖實驗室過去一年做了什麼事情。

騰訊優圖實驗室賈佳亞:加入優圖第一年

在優圖實驗室,我們申請了超過 500 項專利,提出了 10 大產品解決方案,接入了 70 多條騰訊明星產品的生產線,有超過 300 多家客戶落地。最重要的是,優圖實驗室提供給公司內外服務的呼叫每天超過 3 億次,這一數量在世界上所有的技術團隊裡面,都是值得一提的。

騰訊優圖實驗室賈佳亞:加入優圖第一年

第二,優圖到底在做什麼。左邊是一個矩陣,橫軸是從左到右是場景結合的從少到多的應用,縱軸是通用技術到垂直領域的遞增。優圖實驗室最早進入的領域是政務、金融、社交娛樂,這三個領域裡面涉及大量的人臉和 OCR,這是視覺裡面最早能夠落地的方向。去年開始,我們加大投入,進入更多的垂直領域,包括交通、運輸、廣告、零售、教育和資訊流。增加的技術包括影像稽核、理解、分割、影片的各種操作,以及人臉、身體的重建等娛樂化的操作。今年,我們立項了兩個新的探索方向,醫療和自動駕駛

細分一下,我們在影像內容的理解上,呼叫量是在千萬級到億級之間,我們的人臉 OCR 也是在千萬級呼叫。這樣的呼叫數量級說明,我們的場景和技術真正地與產業結合,能夠產生巨大的對人類社會的推動作用。

騰訊優圖實驗室賈佳亞:加入優圖第一年

在一個公司建立完整的人工智慧體系要做很多的事情,在上層,我們必須有能力去開發和完成視覺的硬體,完成視覺的平臺搭建。第二,我們要完成架構搭建:我們能否有快速的、內部自適應的學習系統,能不能在移動端、嵌入式系統端、伺服器端迅速地完成訓練、分佈和部署。當然,還包括了很多的解決方案。依託於完整系統的建立,從研究到開發後,我們透過與騰訊社交、騰訊雲和騰訊覓影等部門合作,把我們的技術對內和對外做一個長期的、穩定性、持續性的輸出。

騰訊優圖實驗室賈佳亞:加入優圖第一年

在這裡面,把我們做的事情如果再細分一下,我們有「一個核心」,就是以計算機視覺為中心;在這上面走入了四大方向,包括:社交娛樂、工業生產、社會進步、前沿探索;再細分下去,社交娛樂會有臉部操作、人體姿態理解、影像增強,工業生產會有辦公、質量檢測等一系列的投入。在十個領域裡面,我們有非常多案例可以給大家看一看優圖實驗室在每個領域做了什麼事情。這也是我們技術團隊敢於開釋出會的原因。

第一個是「AI + 零售」。

優圖實驗室希望透過 AI 改變零售行業,這是很多公司的目標,提升使用者體驗、定義新的線下零售模式,更好地連線人與商品、商家。依託於這一大目標,我們集中火力做了兩件事:一個是智慧貨櫃,一個是騰訊優 Mall。智慧貨櫃依託於商品識別,能讓使用者迅速完成商品購買,讓商家完成供應鏈的管理。騰訊優 Mall 是顧客和商家的行為系統分析,幫助使用者在任何線下商店提高自己的體驗,增加使用者作為上帝的感受。

智慧貨櫃在實踐中有很多的視覺問題,包括攝像頭對於採集影像過曝、欠曝的問題,部分遮擋的商品怎樣處理,頂部難以區分、外觀十分相似等,這都是真實遇到的問題。

為了解決這樣一些問題,優圖研發過程中,我們設定了幾個目標:

騰訊優圖實驗室賈佳亞:加入優圖第一年

第一,希望做到檢測結果非常精準。這個精準意味著我們要達到錯誤率遠低於一個普通線下超市的損耗率。第二,希望解決方案更加有適用性和廣泛性;第三,適用場景更加廣泛,不同的櫃種、不同場景下都可以用到這一套解決方案;最後,我們希望解決繁多的商品種類的問題。為了解決這樣一些問題,我在左邊列出瞭解決方案,這是一個硬體、演算法與服務的整合。

智慧貨櫃亮相 5 月份的廣州「騰訊雲+未來峰會」,當時會上有很多人,但是周邊沒有超市,所以貨櫃變成了大家買商品和飲料的場所。反饋是感受驚人,可以自由地選取商品,自由支付,跟普通的販賣機完全不一樣。7 月份、8 月份繼續更新演算法層面後,我們提出了整套解決方案,達到了一個貨櫃超過 40 多種商品,準確率接近 99% 的準確率。在上個月的重慶智博會上,實際訂單數目 700 多單,錯誤訂單隻有 2 單。在全部基於攝像頭,沒有重力感應和深度攝像頭的基礎上,達到了 99.72% 的準確率

第二個是騰訊優 Mall,這是另外一套解決方案,希望幫助線下的零售合作伙伴完成顧客運營管理和門店精細化管理,實現每一個客戶來到門店後可以得到個性化的服務。我們現在有這套裝置,不管這個店是不是新開的、店員是不是新招聘的,我們都可以完成老顧客進店即識別,同時根據顧客的喜好推薦當季的新衣服,讓她迅速找到自己想要的商品,迅速地完成商品的轉化。在十萬量級的規模下,識別精度 98%,召回率 95% 以上。我們跟永輝超市、百麗等非常大的線下商戶有合作關係,正在研發和推進整套系統的完善和更新。

第二個是「AI + 工業生產檢測」。

工業生產在中國是規模非常大的行業。每年高危作業人員有超過一千萬,工傷超過一百萬。優圖切入工業 AI 是依託於幾個方向:

騰訊優圖實驗室賈佳亞:加入優圖第一年

第一個我們與華星光電進行合作,做皮膚智慧檢測,減少人力需求。同時,在這樣一個檢測過程中,透過對皮膚不同缺損的分析,我們還幫工廠回溯到源頭,看看哪個環節出了問題,或者能提高哪些生產工藝,使得良品率更高。現在我們輔助華星光電完成超過 100 道工序的檢測,減少超過 60% 的質檢人員。而且當新的員工進來的時候,企業可以節省一大筆培訓成本,讓需要用人力完成部分的人員迅速上崗。

在技術層面有兩個重點:第一,是可複製性。每一個行業,甚至是對每一個企業而言,它的採購程式、質檢程式都是五花八門、沒有統一標準的,所以我們希望用技術去實現一個可複製型的排檢系統,有多模型協同去做分割、定位和模板的匹配,對於很多的缺陷,在一期測試結果上我們的識別準確率已經達到了 90%,超過了一般員工在工廠裡面做檢測的水準。這裡我們有兩個主要的技術投入,第一個是智慧缺陷檢測識別。一塊板出來,有 12 個工作站在各種層面不斷地對板加工,缺陷究竟是因為這 12 個站點裡哪個出了問題,傳統意義上很難知道。80 多種缺陷裡,有一些缺陷看起來很不一樣,但卻是同樣的缺陷;有的缺陷長得非常相似,但不是同一種缺陷,用演算法語言表述,就是類內間距非常大、類間間距非常小,所以這是演算法層面的挑戰。

還有另外一個案例,高壓電線的工業檢測。以前很多工人為了檢查高壓電線、管道和電纜需要進入深山老林,這是一個「行走在鋼絲」的行業。然而隨著發展,利用演算法協同無人機,能夠同時做 9 項缺陷的檢查。在關鍵元件絕緣子的檢測上面,我們在一期達到 95% 的準確率,後期我們會繼續推進不同缺陷的檢測。

第三個是「AI + 社交娛樂」。

一直以來優圖的長處是在 3D 人臉關鍵點、人臉分析和人臉編輯方面,我們可以改變人的性別、外貌、皺紋都有特別的方法完成。

今年,我們新做的技術包括,人體分割達到了 96% 的準確率;人體超過 80 個關鍵點追蹤,標準的誤差率達到 0.48。

新的探索方面,我們做了三維人體重建。很多遊戲需要大量的動作捕捉進行 3D 建模,這是一個非常昂貴的過程。優圖在思考,能否透過一個影片就實現 3D 建模的匹配和完成?

騰訊優圖實驗室賈佳亞:加入優圖第一年

這包括幾個重要的方面:一個是人體重建演算法,第二個是動作捕捉演算法。在人體重建上,我們可以達到 53 毫米的精度,在動作捕捉上是 74 毫米的精度。我們相信這會在遊戲的設計和研發過程中,產生非常大的作用。

我們剛剛研發的 FaceKit,希望擺脫手機端對於三維攝像頭的依賴,希望透過傳統的單目攝像頭,完成臉部追蹤和三維重建。用一個 iPhone6 可以實現與 iPhoneX 類似的結果。我們相信這樣的演算法可以在非深度攝像頭手機上完成娛樂場景的普及化。

還有「AI + 辦公」。

OCR,是十幾、二十年前很多的公司就在做的事情。但是現在為止,OCR 還是值得探索的落地方向,它對於金融、教育、旅遊等行業,對於手寫體、數字、各種圖示的識別都要有一個除錯的階段。優圖的 OCR 一直以來是我們的強項,今年我們就加大了對於標準化資料的識別的投入。

騰訊優圖實驗室賈佳亞:加入優圖第一年

依託於第三方,我們與整個市面上現有最好的技術做了比較,在證件照、增值稅發票等方面,優圖所開發出來的這套 OCR 軟體,能實現 95% 以及 99% 的準確率,這在行業裡面是非常領先的。

除了剛才所說的對於工業和企業業務有非常大的價值的東西以外,優圖實驗室作為研發團隊,也非常關注對於社會公益和社會價值的體現。這一點上,我們會跟一些初創公司或者是中小公司有所不同:我們還是希望做更多的對社會有推動作用的事情。例如,福建省公安廳透過優圖人臉比對方案找回了超過 600 多例的失蹤人口,這對於整個社會有非常正面的促進作用。

再往下是「AI + 文化」。這也是今年第一次嘗試做的事情。

中國地大物博,有非常多的文化傳承是人類發展的見證。但是,絕大部分中國的文化遺產都存在非常多的破損和瑕疵,敦煌壁畫就是一個案例。

騰訊優圖實驗室賈佳亞:加入優圖第一年

文物修復的人才奇缺,導致以人手完成敦煌壁畫的修復以及臨摹大概需要一百年的時間。所以我們與故宮博物院、敦煌博物院合作,做了數字色彩體系的建立,也參與了「古畫會唱歌」這樣的能夠帶給年輕人樂趣的專案,讓他們更容易親近我們的文化遺產。而如果想修復和臨摹一張壁畫,一位有幾十年經驗的修復人員大概需要兩到三個月。所以我們希望透過 AI 完成基本線條和結構,再幫助修復人員完成後期的事情。

今年春節,我們上線了一款很好玩的「老照片修復上色」,把褪色的、黑白的照片上傳以後,還原成一個有色彩、有溫度的一張照片。在春節期間,這個功能每天的呼叫量超過 30 萬次。

最後是前沿探索的方面,第一,我們繼續大力投入道路感知。我們與騰訊的自動駕駛團隊合作,做了包括道路理解、3D 點雲的理解、行為預測等。例如在道路場景分割上,即使被遮擋,也能估計被遮擋的車的輪廓、人的輪廓等;還可以直接透過 3D 點雲做道路上的物體識別,把車、人、道路的資訊提取出來。

最後是醫療部分,優圖希望投入到三個主要方面: 在肺結節、宮頸癌、乳腺癌方面,透過視覺演算法加上海量的醫療影像資料,透過騰訊覓影接入超過 60 多家醫院提供的資料,提供全面和高效的癌症早篩的方案。我們的理念不是取代醫生,而是用一個 AI 的技術提高醫生本身的確診率。在靈敏度和特異度上,我們發現我們的結果能夠產生很大的作用。在過往盲測的檢測過程中,醫生得到結果後,會根據我們的演算法改善結果,這個操作會讓癌症的識別率大大提高。

騰訊優圖實驗室賈佳亞:加入優圖第一年

這是我們與硬體廠商開始所合作的整合超聲裝置在做實時監測。在醫生做超聲的檢測時,以每秒 25 幀的速度發現可疑的地方,然後把影像上傳到雲端,透過騰訊覓影做更精確的判斷和檢查,然後把結果反饋給醫生。

騰訊優圖實驗室賈佳亞:加入優圖第一年

最後在基礎研究方面,我們有超過 50 篇的論文發表,我們有超過 80 位的博士研究員,我們的高校合作遍及全球。我們希望不單與中國頂級的高校和專家合作,也希望在全球建立這樣的合作關係。我們有自研的裝置和學習平臺,有超過 100 億量級的資料,也有超過 1000 塊 GPU 做運算。

今天我的演講就到這裡,希望大家聽完今天的東西,發現原來技術團隊的釋出會也不是僅僅是一些演算法或者是模型的羅列,也是很有意思的,謝謝大家。

相關文章