格靈深瞳CTO鄧亞峰:AI學習的三種路線
http://blog.sina.com.cn/s/blog_cfa68e330102zg2l.html
2018-11-16 12:02:32
11 月 23 ~ 24 日,GIAC 全球網際網路架構大會將於上海舉行。GIAC 是高可用架構技術社群推出的面向架構師、技術負責人及高階技術從業人員的技術架構大會。今年的 GIAC 已經有英特爾 、 騰訊、阿里巴巴、百度 、 螞蟻金服 、 華為 、 科大訊飛、新浪微博、京東、七牛、美團點評、餓了麼 、 才雲 、 格靈深瞳 、 Databricks 等公司專家出席。 本週購買可享門票88折優惠,高可用架構會員低至6折 。
在大會前夕,高可用架構採訪了2018年 GIAC大資料&AI分論壇 出品人鄧亞峰, 就目前大家廣泛關注的大資料&AI方面的問題進行了訪談。
鄧亞峰,現任格靈深瞳資訊科技有限公司技術長,畢業於清華大學,具有16年的計算機視覺和人工智慧方向的研發經驗。在過去的工作中,他發表過論文十餘篇,申請中國專利超過100項,其中已經授權的有95項。他曾任職百度深度學習研究院,負責人臉識別方向,曾經多次帶領團隊在主流的人臉檢測、人臉識別競賽上取得過優異成績。其主要的興趣是關注人工智慧特別是計算機視覺技術如何從技術、產品和商業角度在真實世界中大規模落地。
高可用架構:很高興採訪到您。您是AI領域的老兵了,能否簡單介紹一下您以及您選擇深耕AI領域的初心是什麼?為什麼看中了AI的發展方向?
鄧亞峰: 2002年,我本科畢業到清華讀研究生,當時很多同學選擇的是通訊這些當年比較熱門的方向,我自己選擇AI本身有偶然因素,但後來回想確實是因為自己很喜歡這個方向,感覺讓計算機能看懂影像影片中的內容或能識別語音中說話的內容都是非常有趣、很酷的事情,於是就選擇了這個方向。
開始做這個方向,主要是出於興趣和對技術的熱愛,感覺做AI是很有挑戰很有趣的事情,就進來了。在2012年前的時候,AI因為落地很少,一直都是一個在工業界很冷門的方向,當時做這塊的公司很少。我自己能夠堅持下來,一方面是興趣和熱愛起了很大的作用,另外一方面,我從一開始就相信AI技術的價值和對我們未來生活的巨大影響。AI可以看作是工業自動化的延申,幫助人從簡單重複的工作中解放出來,增強人的能力,提高人的效率,從而讓我們過上更好的生活,讓我們擁有更好的世界。
高可用架構:格靈深瞳在計算機視覺等領域有非常高的知名度,您覺得計算機視覺最大的難點是什麼?在落地的過程中,遇到最大的困難又是什麼?
鄧亞峰: 計算機視覺雖然取得了巨大進步,但依然難以真正產品化,往往需要針對場景調整和適配,目前的主要挑戰是如何研發出效能指標、成本、支援規模都能夠大規模複製的標準化產品。而落地過程中,和其它人工智慧技術一樣,最大的難點是技術能達到的水平和大家的需求之間沒辦法百分之百匹配。比如,在過去很多年中,人臉識別需求一直都存在,但技術無法充分滿足,也就無法落地。即使在今天,技術依然不是完美的,但我們不能等待技術完全成熟才去落地。所以,當前階段的主要挑戰在於,基於現有不完美的技術,如何綜合市場、產品、技術各方面的因素,儘快讓技術變成產品、服務落地產生價值,並利用落地產生的營收、資料,幫助人才、技術、產品和市場形成良性迴圈。
高可用架構:資料在AI領域扮演很重要的角色,模型訓練通常需要很多的資料,業內一般採用什麼方式做資料標註?人肉標記嗎?格靈深瞳是怎麼做的?
鄧亞峰: 由於深度學習模型的特點,現在的模型訓練往往需要大量資料,以人臉識別為例,往往需要幾億幾十億的資料。用暴力方式標註這麼多的資料,一方面成本非常高(一般標註一張圖需要幾毛錢),另外一方面,很多資料標註任務難度超出了人的能力。我們一般採用了半自動方式進行處理,利用現有演算法模型把資料進行預處理,然後將其中機器無法做好而人可以做好的部分採用人工標註,透過資料之間的內在關聯來大大減少標註工作量,並提升標準質量。
高可用架構:數學是人工智慧的基礎,需要學習哪些數學知識才能進入該領域?不同的人工智慧方向是否需要掌握不同的演算法?人臉檢測、人臉識別一般包含哪些演算法?
鄧亞峰: 數學知識對從事人工智慧的同學而言非常重要,當前的人工智慧主要是基於統計的,同時神經網路中有很多關於求導、矩陣相關的運算,所以,如果可以掌握高等數學、機率統計、隨機過程、線性代數或矩陣論相關的知識將會很有幫助。當然,如果已經掌握了機器學習的各種知識,上述的數學知識並不是必需的。而且人工智慧是一門需要動手親歷才能掌握的學科,所以,並不一定要先學好上述課程才可以開始人工智慧的學習。
不同的人工智慧方向,因為有不同的任務,有不同的領域知識,所以需要有不同的模型或者方法來表示,演算法上自然會有所區別。比如視覺裡面的檢測任務就是其它領域較少用到的,而語音識別和語義理解裡面會用到很多序列相關的模型,視覺領域用到的會少一些。但現在,語音識別、自然語言理解的方法和機器視覺在方法上越來越統一,不同領域的方法也會相互借鑑,所以,作為演算法工程師,最好可以都掌握一些。
人臉檢測在早期有相對獨立的演算法,比如boosting等,但在深度學習時代,人臉檢測演算法和物體檢測的演算法基本上趨同,目前使用較多的包括SSD、R-FCN等通用物體檢測框架。而人臉識別的整個過程分為檢測、特徵點定位和特徵表示幾個模組,其中最重要的特徵表示模組,需要利用訓練資料的身份資訊學習得到普適的人臉表示,除了網路結構設計,最重要的是設計損失函式,早期的特徵表示在損失函式上有softmax、contrastive-loss、triplet-loss等方法,近期,softmax的很多改進演算法慢慢成為主流。
高可用架構:對於想掌握或者提升AI技能的人,能否給他們總結一下快速上手的學習路線?
鄧亞峰: 對於沒有基礎的同學,我建議的學習步驟是:
Step1,閱讀相關深度學習的基礎知識,瞭解神經網路、SGD最佳化方法、損失函式等基本概念;
Step2,花一點時間熟悉一個訓練框架,tensorflow、pytorch、mxnet任何一個;
Step3,找一個任務上手做,哪怕是MNIST的簡單分類任務,遇到問題,自己查資料解決或者找人請教解決,總之,在做中學是效率最高的;完成這個任務後,再找一個更難的任務去完成。
對於想提升的同學,一方面是找一個對自己能力而言更有挑戰的任務來完成,另外一方面非常重要的捷徑是一定要加入一個很厲害的團隊,在團隊中學習提高要遠遠好過自己摸索。
高可用架構:高水平的人工智慧人才應該具備哪些專業能力?您覺得普通的人工智慧工程師要想成為專家通常需要提升哪些方面的能力?
鄧亞峰: 在工業界,高水平的人工智慧人才,需要在演算法能力、工程能力以及對行業和產品的理解能力上都非常強,既要看到大的趨勢,和技術的價值,也知道如何將技術透過演算法和工程打磨產品化。普通的人工智慧工程師如果想提升為專家,先需要在本職工作中,提升演算法和工程能力,並擴充套件自己的視野和技術領域,並慢慢提升在行業和產品上的理解能力。
高可用架構:深度學習對於計算機視覺的意義不言而喻,現在前者基本上也成為了後者的標配,然而一方面,深度學習對於大規模資料具有非常強的依賴性;另一方面,在很多現實應用場景中又往往難以獲得大規模的資料,在您看來,該怎樣在深度學習和資料的規模間找到平衡?
鄧亞峰: 深度學習對資料的依賴是由於其模型學習過程中的最佳化方式決定的,如果想根本上改變,需要最佳化方式有非常巨大的突破,短期看是比較難的。在實踐中,有一些減少資料依賴的方式,比如利用遷移學習思路,利用其它領域的資料訓練模型的基底,再用少量領域資料去學習,還比如利用半監督或非監督方法,將大量的未標註資料利用起來。除此之外,還可以考慮利用問題的約束條件,加強對模型的約束,提升泛化能力,減少對資料的依賴。當然,資料增廣也是非常重要的提升資料量的方法。在目前的技術條件下,在工業界,如何低成本獲取大量標註資料依然應該是最先被想到的方法。
高可用架構: 作為 GIAC 的聯席主席、AI 專場的出品人兼講師,本次演講您將主要從演算法、資料、計算等角度來分析打造大規模計算系統上的經驗,那在您看來,現在的大規模計算系統的打造存在哪些難點?關鍵點在哪?以及大規模計算系統有哪些方面的現實意義呢?
鄧亞峰: 機器視覺的終極目標是希望讓各種視覺感測器擁有智慧,理解物理世界中人、車、物的特徵、身份、行為、關係,將物理世界數字化。目前為止,還沒有產生真正的大規模視覺計算系統。打造大規模視覺計算系統的難點和關鍵在於,一方面需要不斷提升演算法的準確性和場景適應性,才能在海量資料中,產生可以接受的錯誤,另外一方面需要不斷提升演算法的效率並降低成本,使得對於海量資料的處理時間和成本可以承受,第三則是需要配合大資料技術挖掘跨感測器目標間的關係。一旦能夠真正打造出成本可接受的大規模視覺計算系統,那麼將會在智慧城市、智慧商業等很多領域中對安全、管理和商業運營都會產生巨大的影響,使得線下世界將可以用更加智慧、數字化的方式運營,線下世界和線上世界將融合打通,產生更多的商業模式和價值。
涉及到很多技術相關的內容,我會在23日的GIAC上再詳細的展開。 希望我講解的內容能幫助大家瞭解機器視覺方向的前沿技術、關鍵因素以及應用方向,希望大家能夠少走彎路。
高可用架構: 作為 GIAC 的聯席主席、重磅嘉賓,您對大會有什麼樣的寄語?
鄧亞峰: 希望GIAC成為技術人員深度交流、碰撞思想的舞臺,為參會者真正帶來收穫和價值。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/29829936/viewspace-2286430/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 碳矽智慧 CEO 鄧亞峰:用 AI 解開生命的密碼AI密碼
- ai學習參考路線AI
- 圖靈書單:Java學習路線☕️圖靈Java
- 圖靈書單:前端學習路線?圖靈前端
- 一週智數盤點:格靈深瞳成功上市|AI期刊出版和引用中國均第一,TF開源庫最受歡迎AI
- TweenMax動畫庫學習-陳亞部落格動畫
- 微軟MVP峰會(三亞)之二薦微軟MVP
- 才雲科技CTO鄧德源:不可不知的谷歌叢集管理經驗(圖靈訪談)谷歌圖靈
- 從Python開始——圖靈圖書學習路線Python圖靈
- AI 學習路線:從Python開始機器學習AIPython機器學習
- 深睿醫療CTO李一鳴:產品與科研“雙路徑”下的影像AI方法論AI
- 學習Python程式設計哪種線路科學?Python程式設計
- 必讀的AI和深度學習部落格AI深度學習
- 一位資深程式設計師給JAVA初學者的學習路線程式設計師Java
- 嵌入式開發學習的幾種線路圖方向
- 深度學習DeepLearning.ai系列課程學習總結:7. 深層神經網路理論學習深度學習AI神經網路
- 三種使用AI攻擊網路安全的方法AI
- Linux網路連線的三種方式Linux
- 我的前端學習路線前端
- web安全的學習路線Web
- oracle 的學習路線圖Oracle
- 從事機器學習兩條學習路線 - AI_Grigor機器學習AIGo
- 前端學習路線前端
- Oracle學習路線Oracle
- Vue學習路線Vue
- JAVA學習路線Java
- java 學習路線Java
- javaweb學習路線JavaWeb
- ML學習路線
- GitHub超火開發者路線相簿有AI學習路線了!star數近30萬GithubAI
- 給學妹的 Java 學習路線Java
- 【深度學習】1.4深層神經網路深度學習神經網路
- 深度學習教程 | 深層神經網路深度學習神經網路
- 看《致命連線》電影,學習RDP協議壓縮思路 - Jack zhai - 51CTO技術部落格-領先的IT技術部落格協議AI
- 阮一峰:為什麼寫部落格?(圖靈訪談)圖靈
- 學習王亞偉
- vmware中三種網路連線方式
- 物聯網的學習路線