採寫:鴿子
7 月22 – 23 日,由中國人工智慧學會、阿里巴巴集團& 螞蟻金服主辦,CSDN、中國科學院自動化研究所承辦的第三屆中國人工智慧大會(CCAI 2017)將在杭州國際會議中心盛大開幕。
大會開幕前,CSDN獨家採訪到本屆大會程式委員會主席、螞蟻金服副總裁兼首席資料科學家漆遠博士。
本次採訪中,漆遠博士首次對外批露了日前剛剛完成的一項重大創新——把深度學習和圖模型結合起來,在知識圖譜上做相關推理的能力,這在行業應用上絕對是第一次。
此外,漆遠博士還談到了螞蟻金服目前正緊缺的影像人才,以及螞蟻金服特別歡迎既懂金融又懂演算法的人才。
而談到即將舉辦的CCAI大會,漆遠更是真性情地說到,“我們以前在國內,網紅多了點,真正的這種技術性的會不是特別多。這次CCAI大會,請到了普林斯頓、佐治亞等很多一流的教授,他們是真正的領頭羊,真正的高手。“
以下為漆遠博士的訪談內容。
來阿里做的三件事
CSDN:阿里在人工智慧上的佈局,一直是外界關注的焦點。您當時從普渡大學來阿里後主要做了哪幾件事?主抓的第一件事是什麼?
漆遠:在阿里三年時間,簡單來說主要做了三件事,一個是分散式機器學習平臺,就是大規模引數伺服器平臺;一個是語音識別;再一個是人工智慧平臺PAI。應該說這三件事情為阿里在AI方面奠定一個比較好的基礎。
來阿里後做的第一件事是分散式機器學習,當時一來就主抓這件事,因為阿里急需這麼一個平臺,而我自己也比較擅長。
在麻省理工,我當時在《Nature》以第一作者發表的文章,就是用分散式計算來做的,通過機器學習來分析海量的生物資料。
後來到了普渡大學教書,我做了兩個專案,一個是通過分散式機器學習演算法來分析生物資料,這個跟我來阿里特別相關。另外一個GPU,2008年我開始用GPU來訓練機器學習文字分析模型,然後通過計算並行化加速,這個跟我後來的研究也一脈相承。
CSDN:這個分散式機器學習平臺用是怎麼實現的?
漆遠:首先是基於引數伺服器,後來我們用到了引數伺服器的框架,再後來我們又在上面做了實時學習,開發了深度學習,接著在PS框架做了深度學習框架。這個東西做完之後,有一個簡單的指標:百億的特徵,資料做到千億,引數做到萬億。其實去年有個大公司開源特徵規模10億,資料百億,引數千億,這個資料乘以十差不多到我們的級別了。這個其實我們2014年就做了,我們直到三年後才對外公開。
這是一個工業界的演算法和業務的結合。這跟學校做的工作相關,但是有很大的不同。這是實打實的,必須穩定,我們把阿里媽媽的特徵數直接從2000萬提到近百億,RPM直接提升8%左右,這就意味著上億的收入提升。
從廣告的搜尋到推薦到菜鳥等,全集團都在使用這個分散式機器學習平臺。
螞蟻金服的風控、CTR及智慧助理
CSDN:這之後您去了螞蟻金服,螞蟻金服吸引您的地方是?
漆遠:當時我來阿里面試的時候,就奔著這個了。當時就覺得,螞蟻金服AI平臺有大量的適合機器學習的場景。AI要落地,除了平臺就是場景,場景非常非常必要。普惠金融這個場景就特別適合AI。普惠要服務很多人、很多中小企業,這裡面一定是技術驅動的。人是沒有辦法做普惠的。而螞蟻金服恰恰就做的是普惠金融。
CSDN:螞蟻金服常提的概念是TechFin,用科技為金融賦能。這裡面關於風控,主要用了什麼技術模型?裡面的原理是什麼?
漆遠:風控這塊主要是無監督學習。裡面的思路是,假如你能把使用者之間的關係,他們正常行為分析得很好,那就可能發現有哪些不正常的。在統計機器學習裡面我們叫做異常檢測。如果我們用一個更好的模型來分析正常的使用者行為,就可以分析異常的行為。跟正常不一樣的,可能最後就是異常。
其實我們並不知道哪些資料特徵和風險相關,哪些不相關,所以我們就把當初開發廣告的一套技術思想,用在風控裡面。通過機器學習,一個是保證準確性,一個是誤識率這兩個的平衡,我們就能夠在抓到足夠壞人情況下,不打擾使用者,減少上千萬次的使用者打擾。這裡面灌入我們系統裡面使用者行為軌跡的資料,然後再把這種特徵變換的技術和深度學習的技術做一個結合,運用在風控裡面,而且效果非常好。
資料的實時性和多維度非常重要。結合使用者本身的行為軌跡,就可以分析是否是一個欺詐行為,盜號或者洗錢行為。
CSDN:來螞蟻金服後,您主抓三個方向的落地:廣告預測CTR,AI助力金融科技TechFin,還有智慧助手。關於廣告預測CTR,講一個特別創新的例子吧,以及背後的技術點。
漆遠:那我說說口碑吧。CTR對它的提升特別大。
我說說這背後的技術亮點。這裡面就是一個矩陣分解和雜湊演算法,可以完成十億數量級的超大規模學習。
這種情況下怎麼加速?
我們把它和雜湊演算法進行結合,結合之後可以大規模提升效率,同時保證預測的精準性。這算是一個直接的技術創新。工業界講究穩定性,在穩定的技術上講究速度和計算的資源消耗程度,然後才是準確性。
CSDN:目前來說,您主要的精力是抓什麼?
漆遠:從技術本身,我們現在比較關心的其中之一是智慧助理的發展,然後另外一個就是螞蟻金融大腦的構建。我們希望通過智慧助理,幫助螞蟻變成一個智慧的一站式生活服務平臺。
比如轉賬給某個好友,直接說句話,支付寶自己就給你轉了,你只需要點選確認。比如你要找到一個埋得很深的城市服務,叫車,買電影票,你對助理一說,就完成了。這個是我們比較關心的方面,涉及到很多機器學習,自然語言處理,對話技術,知識圖譜還有推理能力。
另外一個就是螞蟻的金融大腦,這個金融大腦要理解市場的風險,包括信用風險、理財風險等,並從多個角度來理解它,這個是我們金融大腦的定位。這也是我比較關心的一個事情。
再一個,是希望把我們的AI能力直接賦能到現在所有業務領域,對我們業務的發展,就像水一樣注入所有業務的發展。
CSDN:螞蟻金融大腦比較難攻克的地方是?
漆遠:金融大腦的核心能力就是推理,推理是一個核心問題。從推理到決策,怎麼能夠保證它是一個系統化的風險刻畫,而不是單個的單點的刻畫。
深度學習應用很多都是單點模型,比如預測這張臉是不是你,預測圖片裡面是狗還是貓。這是單點的。但金融裡面很多是一個網路結構,是一個系統。
這與大家平時外面聽得比較多的影像識別不太一樣。
CSDN:智慧助理,從您開始創立到現在,已經到了什麼階段,取得了什麼實質性的效用呢?技術難點在哪裡?
漆遠:螞蟻金服業務的迅速擴張,對客服人員的需求量還是非常大的。去年的雙十一,客服已經做到97%的自助率了,滿意度也高。因為自助率高的話,大部分使用自助程式的機器人幹得比人還好,人的滿意度也很高,比真人提供的客戶質量、滿意度還要高,這是一個直接的表現。
這裡面的技術難點包括推理,對知識庫的理解、知識圖譜的構建等。
CSDN:目前在工作上,有什麼問題是想解決還沒有解決的?
漆遠:怎麼把公司的長期目標分解成一個短期的演算法指標,這個還需要思考。
CSDN:可否透露一個您還從來沒有對外講的料?
漆遠:我們正在知識圖譜上做相關的推理能力。我們把深度學習和圖模型結合起來,在風險上做出了新的東西,這個是非常大的技術亮點。
深度學習以前和圖模型是分開的,並沒有做推理能力。我們把這個結合起來,直接大規模的提升了我們效率,上星期剛做到的,這個還沒有對外講,絕對是獨家專有的。
深度學習怎麼推理,是一個技術難點。怎麼從這個知識點推到下個知識點,下個知識點推到下下個知識點,這個其實並不容易的。
因此在我們行業應用,這絕對是第一次。其實在整個世界上,這個技術本身也是非常領先的,可以說是最領先的。前兩天有一個伯克利一個教授來了之後,聊完之後也是非常震撼。
CSDN:問一個俗套的問題,在金融領域,您覺得哪些領域、哪些職業是很容易被未來的AI取代,哪些是不太容易被取代的?
漆遠:重複性的,沒有真正創造性的工作,我覺得從長遠來講會收到很大的衝擊。
假如你的工作每天一模一樣,天天看一個財報,拿一個規律做一個結果,將來就會非常危險。最簡單的例子——貸款,對於貸款審計,資料就可以利用演算法自動完成。
螞蟻金服急需的人才
CSDN:問一些大家都迫切想知道的問題。螞蟻金服現在估值600億美金,很多人也希望進入裡面工作。您對人工智慧團隊的要求是什麼樣的?什麼樣的人才能夠進入到螞蟻金服的和您一起來工作呢?
漆遠:對團隊的要求是,既叫座又叫好。
叫座的話,首先能夠解決實際問題,見效果,從問題出發,不是拿著錘子找釘子。
叫好的話,希望有技術深度,當然這裡面需要平衡,有的同學演算法多一點,有的搞工程多一點。
我們的團隊不是一個刷單的團隊,刷各種外面的公開比賽,我們是真正要解決實際問題,一方面提升螞蟻金服甚至服務整個阿里經濟體,解決大家遇到的核心的AI問題;一方面我們要產生新的產品、新的服務,能夠造成新的增長點,這是目標。
這就直接對映到我們對人的需求上來。
我希望加入我們團隊的人,首先能夠對機器學習技術本身有真正的熱愛,沒有熱愛就比較難做。因為技術說起來很高大上,真正做起來需要投入的精力,不是短期的,也不是表層的。
第二,對於人才我們既需要全棧型的,也需要對某技術特別鑽深的。如果兩個都很強,那就更好了。
CSDN:沒有名校背景的人,但是有一些實戰經驗,這樣的人才也OK嗎?
漆遠:實戰經驗看怎麼定義,實戰經驗如果是自學,真正學了很多機器學習的技術,真正比較深入地掌握了技術,有基礎並且還能進一步提升,這種實戰經驗就非常好。
如果只是拿開源軟體做了一個模型,對背後的思想和原理並不明白,那我認為這個潛力就不是非常高了。
CSDN:現在急缺的是哪一類人?
漆遠:急缺的影像上的人。影像市場競爭激烈,好的人才,大公司、創業公司搶得非常嚴重。好的演算法人才,永遠都不夠,但是除了演算法人才本身,工程和產品我們一樣很缺。
還有一個方向,既有金融經驗,又有演算法經驗的,也非常缺。我們用科技服務金融公司,假如能和金融協調起來,那就更好了。
麻省理工及普渡大學的影響
CSDN:從阿里到螞蟻金服,您操盤過的內容包括機器學習平臺、語音識別、PAI平臺等,為阿里奠定了一個比較好的AI基礎,您覺得哪段經歷對於今天的您影響重大,麻省?還是普渡?兩個學校有什麼不一樣?
漆遠:當然不一樣了。
在麻省讀博時,主要是理論基礎的學習,博士後就是創新了,開始做各種演算法,然後是應用,包括基因解碼、生物資訊上的應用。
麻省理工是當之無愧的世界最牛的科學和工程學校。我們住在學校樓裡,和諾貝爾獎獲得者一起吃飯、聊天。比如人工智慧創始人馬文·明斯基,與他們交流,對擴大思路,提升眼界,有很大的幫助。
在麻省理工收穫的很重要一點就是,不迷信任何權威。
在普渡當了老師後,更多會思考哪些是機器學習人工智慧可能有的方向,技術本身突破的方向,社會應用哪些是最關鍵的。
在普渡做老師和做公司其實是一樣的,你要自己拉專案基金,自己招人,自己設定方向,自己產出覆盤,整個體制和你在做一個創業公司是非常像的。
普渡當時一個優勢是計算機系和統計系的結合,因為機器學習本身是計算機和統計、優化形成的融合。這個對我來說非常吸引。
當前感興趣的理論
CSDN:您現在最感興趣的前沿理論是什麼呢?為什麼?
漆遠:現階段比較關心兩方面的理論,一個是推理,一個是先驗知識結合小資料學習。
我對物理也是感興趣的,我從物理學、包括經濟學看到很多結合點,總結來說對三點比較感興趣。
一個是物理上非均勻態的物理學和機器學習的結合;
第二個是非均勻動態變化系統和機器學習的結合,我們叫動態系統;
第三個是博弈論和機器學習的結合。
大會不要網紅,要真正的高手
CSDN:今年阿里是聯合主辦方CCAI大會,您作為程式委員會主席,準備發表一個什麼樣的主題演講,透露一下。
漆遠:保留期待,這個大會上我會告訴大家。
CSDN:阿里今年來參加這場偏學術性的大會,做CCAI的大會主辦方,你認為這次大會有什麼樣的亮點,以及有什麼樣的期待。
漆遠:其實從我個人來講,中國很多人工智慧峰會,真正有技術含量的會議並不多。本次大會的亮點,就是邀請到很多海外學者,包括來自普林斯頓、佐治亞的一流教授,國內南大、清華、交大等的教授,他們是真正的領頭羊,真正頂尖的高手。
國內網紅多了點,真正的技術性強的會不多。我們希望推動人工智慧真正在技術深度上的發展。
還有一個亮點,是我們需要把螞蟻的問題介紹給大家,不只是螞蟻,還有整個金融行業的問題,和大家來溝通和分享。
CSDN:最後一個問題,請您分享一句話,一句話您在AI之路上,對您幫助最大的一句話,或者是您多年從事AI這一塊,最大的一個心得體會。
漆遠:Assume nothing, question everything. (不事先做任何的預設,敢於質疑一切)
很多問題本身要從基本原理出發,不應該帶著有色眼鏡,不管是商業還是科技還是技術鏈的,大家要敢於從獨特的角度來思考。我覺得做科學和做公司,到最後的相通之處,都是從基礎的原理、從最基本的問題出發,這個非常關鍵。
所有大牛所有的理論,都有可能是錯的。你要敢於質疑現有的狀況,現有的方案,想到更好的方案,不是人云亦云。
漆遠博士簡介:
漆遠,現任螞蟻金服首席資料科學家。麻省理工學院博士,國家千人特聘專家。目前致力於大規模機器學習和深度學習平臺的建立及其在螞蟻金服各項業務的應用。擔任過機器學習權威雜誌Journal of Machine Learning Research的執行編輯和全球機器學習頂級會議ICML的領域主席,獲得過微軟牛頓研究獎和美國科學基金NSF Career獎。