吳恩達專訪:我的人工智慧科研之路

AIBigbull2050發表於2020-03-11
2020-03-09 16:40
導語:我最幸福的是我的女兒~

吳恩達專訪:我的人工智慧科研之路


作為史丹佛大學電腦科學系和電氣工程系的客座教授,吳恩達一直致力於深度學習的研究。在不同的場合,他一再表示:深度學習還有很大的潛力,是一項被證明有效的技術,我們需要繼續加大投入。

為此他做了很多努力:其與達芙妮·科勒一起建立的線上教育平臺Coursera影響了數百萬的AI學習者;所開發的人工神經網路通過觀看一週YouTube視訊,自主學會識別哪些是關於貓的視訊為人工智慧領域翻開嶄新一頁。

近日,MIT的 AI 科學家 Lex Fridman 對吳恩達進行了專訪,在接受採訪的時候,從線上教育平臺Coursera談到了初學者如何進入AI領域,並講解了他認為的最高效的“學習姿勢”是什麼樣的。

另外,其還回憶了他的第一個博士生,並簡單介紹了當時研究直升機的專案......專訪視訊如下,由於視訊過長,AI科技評論在不改變吳教授邏輯的情況下,進行了有刪改的編譯。

視訊內容:

Andrew Ng: Deep Learning, Education, and Real-World AI | AI Podcast with Lex Fridman

1、Youtube連結:

https://www.youtube.com/watch?v=0jspaMLxBig

2、騰訊視訊連結:

https://v.qq.com/x/page/k3071n26rvo.html(由網友上傳)

1、線上教育的早些時候

我在香港和新加坡長大,第一次接觸程式碼還是5、6歲的時候,當時我學習基礎的程式語言,將一些程式碼編入計算機裡,當時我也非常喜歡做一些編碼例項。

我在我的舊電腦上面實現我的想法,沉迷於將課本上的程式碼復現到電腦上,因為我覺著用程式設計幫助我玩視訊遊戲非常酷!年齡稍微大點,我就和我的醫生爸爸就閱讀相關的專家系統和神經網路知識,那時在計算機裡寫程式碼,然後展示智慧是真的很棒!

高中的時候,我在辦公室做助理實習,期間做了很多影印(photocopy)的工作,當時我就想,如果能寫一些軟體來造一個機器人來讓一些工作自動化,那該多棒。

從那時起,我的很多工作都圍繞著自動化這一主題展開,直達今天。我仍然以自動化為中心,甚至今天的機器學習在寫一些學習演算法方面也非常出色。

另外,我在Coursera上也嘗試了將自動化應用到校園教學上面。我在史丹佛教授機器學習的時候,每年會有大約400名學生,每一年我都會在相同的教授,拍攝相同的教學視訊,甚至講相同的笑話。我在想為什麼我不用在最後一年拍攝的教學視訊,然後花更多的時間和同學們建立深刻的關係 ?這啟發了我的思考,然後我們發起了第一步的行動。

其實大多數人都不知道,我放在網上的教學視訊大多是晚上10點到凌晨3點之前錄製的。一開始的時候,壓力很大,我們想過要放棄,但是有十萬人註冊,成千上萬的人的期待促使我走向錄音棚,走向辦公室。開始錄製之前都會調整我的講課邏輯,調整歡迎致辭,開著麥克風,然後開始錄製,每每都會到夜裡兩三點,但是創作內容的想法鼓勵著我希望有很多人學習機器學習。

我告訴我的團隊,我們首要任務是做對學習者有利的事情,每當我往錄音棚走去,我腦子唯一的想法是我能說什麼,如何才能讓學習者儘可能的瞭解機器學習概念。我認為我們做了對的事情,我一直在堅持基本原則,做對學習者最好的事情,即使學習者可能來自全球各地。

我很想幫助任何對機器學習感興趣的人進入這個領域,你可能會好奇,為什麼要發給這麼多的時間來解釋梯度下降,其實回想一下學習的基本要求就知道了:任何進階技能都可回溯到基礎概念。當然,對人工智慧感興趣的人非常多,這裡面可能包括開發商,程式設計師,他們可能來自世界各地。確定的是,感興趣的人數還會隨著時間的推移而增長,所有的這些東西都不會憑空而來,所有一蹴而就的成功都需要花時間才能實現。

我第一次接觸到線上教育是把我在史丹佛講課的視訊傳到YouTube上面,隨後也建了網站,建造網站的好處是讓我可以進行迭代,讓我們實現一些想法。當時非常興奮,尤其開發了一個特別的登入功能,即可以讓多個人同時登入此網站,能夠讓多人同時看視訊。當前的一些網站大多不支援此項功能,畢竟如果你已經登入了,我再想登入,那麼只有你登出才可以。當然也有許多失敗的教訓,其實如果有一些東西看起來很棒,然後沒有人使用,那麼它實際上並沒有你認為的那麼棒。

2、機器學習會像教育一樣普及

整個機器學習運動的興起,並不是憑空而來,越來越多的人在學習機器學習,進入這個領域的人還會影響他的朋友,所以這個AI學習者的比例還會不斷的增長。

尚不清楚AI開發人員佔總開發人員的多少,但是佔到50%以上的比例還是非常輕鬆的。畢竟AI不僅涉及機器學習建模,還要涉及機器學習基礎裝置、資料管道等。就像今天的開發工程師或多或少的都對“雲”有些理解,但並不是都在工作裡需要“雲”。

我認為這種現象以後在某種方式上會適用於AI開發者。曾幾何時,只有一小部分人識字,也許你認為不是每個人都需要學會讀和寫,這些人只需要聽就夠了?但是當一個國家的人基本上都認識字的時候,這大大的促進了人與人之間的交流。

在計算機方面,仍處於這個階段,如果人人都認識程式碼,都曉得機器學習,這在某種程度上類似於識字教育普及。但隨著機器學習和資料規模的上升,我發現的是,我認為在日常生活中,在工作中具體使用資料分析的人數非常多。

如果你在經營一家商店,如果你能分析你的客戶的銷售資料,那麼你的價值非常高。在某種程度上這些人是資料科學家,因此,我認為機器學習的資料跡象可能比軟體工程更容易進入已開發國家。

3、無監督學習很重要!

Peter是我的我第一個博士生,他有著評判性思維,當時他的博士學位研究主題是用強化學習控制無人直升機,直到現在你都可以在史丹佛網站上看到這些視訊。這項研究非常難,有一些事情無法克服,例如當直升機倒飛時,你如何找出位置?如何定位直升機?我們嘗試了很多方法,但顯然問題出在GPS硬體上,當時想過用兩個GPS定位,但沒有成功。為了解讀GPS訊號,我們瘋狂索複雜的專門硬體配置,經歷了很多失敗,最後解決方法採用在地面上安裝攝像頭解決定位問題。史丹佛那時候有很多強化學習的理論文章,但是實際應用並不多,所以我們的研究在當時非常有名。

我們今天可能又回到了原點,強化學習的進展目前如此令人興奮,但我們仍然在尋找更多的應用場景。我非常喜歡研究理論,我希望我所做的工作會對人們產生積極的影響。我還記得,多年之前,我們和一位數學教授討論的時候,當他說道他想做的事情的時候,他的眼裡充滿了小星星,他說我之所以研究數學,是因為它幫助人們發現真相以及宇宙的美麗。所以,全力支援以及帶著尊重看別人的觀點非常棒,當我看到我的團隊正在幫助人們的時候,也會非常有動力。

這個世界上需要各種各樣的人,我只是其中一個,並不是每個人都像我一樣做事情,但是當我鑽研理論或者實踐的時候,如果我堅信這是一條幫助別人的道路,滿足感就會非常強烈。我們也有忽略的東西,那就是早期無監督學習的重要性,在谷歌大腦的早期,我們在無監督學習上投入的精力遠超有監督學習。當前我們所知道的大部分都是通過有監督的學習來實現,從絕對有問題的論點來看,人類獲取資訊的方式是通過檢視影像、收聽音訊和感悟他在這個世界上的經歷。

所以無監督的學習非常重要,當然,這不是說有監督學習不重要,畢竟早在幾年前,很多人認為這才是進步的方向。但是我們對“規模”的探索可能是正確的,畢竟規模能夠為系統帶來效能。我在史丹佛小組的名為Adam成員經過實驗發現,我們訓練的學習演算法規模越大,效果越好。

為此他還畫了一個圖,並說服了我:當模型的規模比在GPU上所做的大的多的時候,便能夠得到一個非常好的結果。或許這是一種有爭議的文化,當時有很多朋友都說我追求規模的舉動非常糟糕。但是我發現,如果你想取得突破,你必須對你所做的事情有信心,在事情流行之前做一些事情,會讓你更有影響力。

4、資料集的規模和學習機制都很重要!

其實資料集的規模和學習機制都很重要,當然這依賴於特定的問題,目前已經有幾個資料表明,在基本錯誤率方面,我們正在接近或超過人類水平。如果我們看看最近使用你們的語言模型取得的突破,例如GPT-2和Bert,就會發現這是架構和規模的結合。

我們已經在管理cold thing方面在逐漸成熟,例如版本控制。但是我們在管理資料集方面並不成熟,例如軟體上一些亂七八糟的資料問題。高質量資料集也非常重要,舉個例子,當我們與製造公司合作時,標籤不一致的情況非常多。(雷鋒網)

對於大型網際網路公司,有很多資料,錯幾個標籤沒關係,但是對於小公司,並沒有大量的資料,假如只有100個資料,卻有10個錯誤標籤,那麼錯誤率就是10%,這對訓練的影響會非常大。

5、初學者如何進入深度學習領域?

一個人是如何進入深度學習領域的呢?雖然大多數都是自學但是仍得益於專業化的設計。什麼是序列模型?什麼是注意力模型?是不是非得微積分才能理解這些概念,其實如果只在電腦上操作兩個矩陣相乘只需要高中知識就夠了。

當然了,深入學習還需要線性代數的支撐,需要了解非常基本的知識,瞭解一些程式設計。但是有人已經做了機器學習的呼叫,所以進行深度學習非常容易。

初學者在學習人工智慧的時候,應該多實踐,瞭解演算法之間的不同之處,一開始不要費心去收集資料。在學習的過程中要進行自我測試,花時間修改架構,嘗試新東西,高效的構建神經網路,但規模也不要太大,神經網路的規模要在你可支出的範圍之內即可。

你可以在前六個月建立一個完整專案,眼光不要只放在資料這一個小的方面。必須著手構建實用的機器學習的系統思維框架,打個比方,我們在學習程式設計的時候哦,必須必須學習一些語法,Python也好,C++也好。但同樣重要的是,也許編碼中更重要的部分是理解如何將這些程式碼融合在一起。什麼時候應該在函式列中放置一些東西?

你什麼時候不放置?什麼樣的框架能讓程式設計師更加高效?我記得當我在卡內基梅隆大學讀本科時,我的一個朋友會先試著用程式碼來除錯他們的程式碼。他每一行都要注意語法錯誤。語法錯誤是可怕的,應該學習如何除錯。另外,機器學習程式中除錯的方式與二進位制搜尋方式非常不同。

非常擅長除錯機器學習演算法的人,會讓某些東西工作起來的速度很容易就快了10倍,也許是幾百倍,他們除錯的過程非常高效。與學習數學類似,深度學習的一個挑戰是,有太多的的概念。如果你忽略了概念,那麼你就可能弄不清後面要做的事情的前提條件。(雷鋒網)

因此,在深度學習的專業化學習中,要儘量打破概念,最大限度提高可理解性。這樣的話,當深入學習時,就會有足夠的信心。另外,我發現,如果我嘗試教給學生最有用的技巧,並讓他們即刻使用,就會縮短他們“強制”學習的時間。現在的世界變化太快了,也許幾年的時間就會天翻地覆,但我認為我們還需要更多的進行強化學習。

深度學習令人如此興奮,但人工智慧團隊不應該只使用深度學習,我的團隊就會使用一系列的工具。有時候我們使用PC電腦,試圖在PC上找出解決問題的原因,有時候使用代理模型,有時候使用草稿,這裡面或許會有一些對行業有巨大影響的內容。

多樣化的技能可以幫助我們發現更適用解決問題的工具。在學術方面我也有期望。假如我只做學術,並且有無限的預算,不用擔心短期的影響的話,我會把所有的精力都花在研究無監督學習上,因為無監督學習是一個美麗的想法,它讓人興奮。舉一個自監督學習的例子:我在網上抓取了一些無標籤的影像資料,資料的種類各種各樣,那麼我會將每張圖片旋轉、翻轉,然後訓練一個有監督的神經網路預測圖片原來的方位。

因為旋轉了圖片,所以產生的有標籤的資料就是無限多。研究人員已經發現,通過無標籤資料和捏造標籤資料集,然後訓練一個大型的新網路,採用隱藏層表示並使用遷移學習能夠將其轉移到另一個強大的演算法上面。無監督學習越來越重要,並且在現實世界裡發揮著作用,尤其是在計算機視覺領域,此概念融合其他學科的概念會讓人興奮。

我對稀疏編碼也非常感興趣,我看到過一個慢特徵分析,其想法可以追溯到我們十年前的工作內容,但當時我們都被監督學習所分散精力,所以希望研究者可以圍繞主題探索更多的工作,以便能夠出圈。

6、養成學習習慣是重要的學習技巧!

對於初學者來說,大概是16周可以完成深度學習專門的課程,也有的人在不到一個月的時間完成學習、也就是說,這取決於個人情況,我們在Course上面提供了非常專業化的課程,非常容易獲得,也很實惠。如果學生經濟困難,那麼就可以申請經濟援助也是可以的。

在學習深度學習和機器學習的時候,養成學習習慣是關鍵,因為這意味著規律性。對我自己來說,我養成了每週六和週日花點時間看書或學習的習慣,習慣會讓人變得更容易。所以就像你刷牙的習慣一樣,不會認為那刷牙的那兩分鐘所做的事情是煩人的。

記住,學習者不需要有認知負擔的習慣,但要做到這一點一開始會非常困難。確信自己能夠養成不需要做決定的習慣,學會堅持不懈!讀研究論文是一件非常好的事情,“不讀論文”的能力可以來自一年裡每週都讀論文,當你讀了一百篇論文之後,你會學到很多。

關於學習的技巧,提倡手寫筆記。對於我來說,當我深入研究某件事時,我會用手寫下來。當然,視情況而定,不是每個人都適用,例如很多人在通勤途中的學習,書寫就非常不方便。但是總的來說,手寫筆記可以提高記憶力,能夠讓人們更多的回憶知識點,促進了人們的長期注意力的集中。

然後在寫筆記的過程中,注重總結,可以寫的慢一點,但要對學習的內容深層次總結。在學習過程中,實際上課程作業是人們進入新領域並學習概念知識的一種非常有效的方式。

博士生如果想投入研究,實際上最好的做法,是在開始幾年的花時間奠定基礎,雖然頭幾年的工作效率比較低,但是長遠來看,確是非常棒。從小事做起,循序漸進,不要一上來就處理大專案,可以拿小專案練練手。當然,最關鍵的是先邁出第一步,然後再邁出一小步。

7、關於博士學位,關於找工作研究者應該獲得博士學位嗎?

機器學習中最令人著迷的事情就是即使你沒有博士學位也能做一些有影響力的事情。

當然瞭如果有人被麻省理工或者史丹佛等頂尖高校錄取,那麼也是一次極好的經歷。另外,如果有人想成為一所頂尖大學的教授,那麼就必須擁有一個博士學位。

另外,我建議你得到一份工作的時候,要問誰是你的經理?你周圍的同齡人都有誰?因為我們都是社會生物,我們往往變得更像我們周圍的人。如果你為優秀的人工作,你會學得很快。如果一家公司不告訴你與誰一起工作,或者說是輪換制度,我覺著這可能是一個令人擔憂的答案,因為這意味著你無法與優秀的人一起工作。

8、如何建立一個成功的人工智慧創業公司

很多初創企業的失敗都來自於產品製造,因為他們的產品沒人想要。我本身傾向於結果以及客戶驅動的商業模式。只有當客戶決定給你的產品伸大拇指,還是小拇指的時候,才能決定你的成敗。

在短期可能會得到各種使用者的青睞,最重要的還是長期,所以當你創辦一家企業的時候,要問自己一個問題:客戶會有什麼想法?我們所有人都應該只做我們認為能創造社會公益、推動世界前進的事情。無論是在企業,還是在學術環境中,最有意義的方法一直是為人們服務。

所以我個人並不想支援製造令人上癮的數字產品,因為這些產品只要帶著“有利可圖”的屬都能做到“上癮”。當我還在百度領導人工智慧小組時,我的工作分為兩個部分。其一是建立一個AI引擎支援現有的商業模式。第二個工作是嘗試啟動公司新的業務線,即把公司的人工智慧使用上。

所以自動駕駛業務併入了我的小組。當時我就想建立人工智慧基金,並從零開始系統地打造新的創業公司。我想這會是團隊追求豐富企業空間的一種重要方式。這種機制對完成專案,推動世界向前發展有重要的影響。非常幸運的是,我建立了幾個研究小組,也產生了一些積極的影響。接下來我會用更加系統的方式運營。

工作室最開始是新的概念,現在可能有了幾十個了,很多團隊仍然試圖想找出如何高成功率執行公司的方法。我的一些風投朋友也似乎越來越多的想建立一家公司,而不是投資一家公司,因為最迷人的事情始終是如何建立一家成功的公司。現在已經在給創業者提高成功率方面已經做得很好了,但是在全球範圍內還處在早期的階段。

對大多數創業者來說,開一家公司真的是一件寂寞的事情,有太多的企業家不知道如何做出決定。例如在銷售的時候,在投放廣告的時候......企業家需要做出數百個決定,而在幾個關鍵決策中犯錯誤會對公司的命運產生巨大的影響。因此,我認為工作室會給初學者提供支援,讓建立公司不再是孤獨的經歷。

此外,當面對一些關鍵的決策的時候,例如在僱用第一個工程副總裁的時候,僱傭標準是什麼?如何僱傭?工作室至少在關鍵時刻能給這些人一些幫助。另外也希望幫助他們對關鍵決策的“時點”有意識。

9、企業如何轉型AI?

一家大公司如何將機器學習融入到他們的工作中呢?人工智慧是一項通用技術,它將改變每個行業。其實,我們的AI社群已經在很大程度上進行了改變,大多數軟體網際網路並不是頂級的,其只要具備合理的機器學習能力,就有很大的改進空間。軟體網際網路領域之外行業,例如製造業,農業,醫療保健,物流,運輸,有非常多的機會,但很少的人在使用人工智慧。所以我認為人工智慧的下一步是改變所有其他行業。因此,我們需要更多的團隊為這類公司工作,幫助他們部署AI。除了網際網路軟體行業,所有的行業都很有潛力,畢竟這是我花了很多時間在製造業、農業、醫療保健等方面才得出結論。舉個例子,在製造業中,計算機視覺發揮了很大的作用:用深度學習訓練一個演算法,然後讓其識別產品是否有缺陷,然後給出工廠如何改進的建議,以便提高產量和質量。事實證明,此過程遇到的實際問題可能與你猜想可能遇到的問題大不相同。在大多數研究中,首先資料集的規模幾乎是不夠的,另一方面還需要考慮工廠的實際情況,可能模型在訓練集上效果很棒,但如果工廠改變了一些東西,例如燈的亮度,演算法的準確率就不會很高。然而這些問題,學術界大多都沒有討論。

我曾經在網上發表了一份《人工智慧轉型手冊》,簡單的介紹了每個公司在轉型的時候應該避免的坑。而第一步實際上是從小事做起,但是很多公司的失敗都是因為一開始“大而不實”。

以谷歌大腦為例,當時很多人認為深度學習神經網路沒啥用,我和我的團隊從小事做起,建立了一個準確率高的語音識別系統,然後其他團隊開始青睞深度學習。

第二個例子是谷歌地圖,我們使用計算機視覺從基本的街景影像中讀取房屋編號,以谷歌地圖更準確地定位房屋。也就是用深度學習來提高地圖資料的質量。通過兩次的成功,我們逐步建立了人工智慧專案的發展勢頭,然後才開始了與谷歌廣告團隊進行對話、合作。雖然只前期都是小規模的專案,但讓我們的團隊獲得信心。

記得,我們當時只有一臺GPU,但是卻從如何探索多人共享方面學到了很多東西,這也幫助我們團隊思考如何將其擴充套件到更大的部署。建立和部署機器學習是非常困難的,在電腦中執行notebook檔案和在具體實際情況中部署之間有著巨大的鴻溝。

很多人低估了演算法部署到生產所要花費的精力,一些演算法在測試集上做的很好,但是用在實處卻不起作用,例如把工廠附近的樹木砍掉,測試集 會發生變化,演算法是否能發揮效力不得而知。在學術界,當測試集和訓練集之間的概率分佈是不同的時候,如何處理尚未得到好的解決辦法。當然,遷移學習正在為這方面工作做努力,但是我們真的不擅長處理此類事情。如果你看看軟體系統中的程式碼行數,機器學習模型可能只佔整個軟體系統的5%甚至更少,那麼如何完成接下來的工作,並使其更加系統和可靠呢?需要明確的是,良好的軟體工程是基礎,也是構建小型機器學習系統的基礎。

10、我們應該考慮什麼樣的AI道德?

拿自動駕駛來說,最大的問題不是“電車難題”是,最大的問題是當一輛車橫穿馬路時,最大的問題是你應該做的是剎車而不是撞上它。

另一個道德問題是財富不平等,人工智慧和網際網路正在引發權力集中,因為資料擁有可以高效的分析資料,會影響眾多產業。

網際網路很多行業有“贏家通吃”的動力,同時這些動力影響著其他的行業。

所以重點是如何確保財富得到公平分享呢?如何幫助失業的人?除了教育之外,我們可能還需要做更多的事情。然而偏見也是一個嚴重的問題。故意對遙遠的未來可能出現的問題的事情大做文章,而不是把重點放在當前硬體方面的問題上,會掩蓋我們今天已經存在的問題。

11、我最自豪的事情!

我也犯了很多錯誤,但是每次改正,我都會想為什麼不早五年,甚至早十年想到這一點呢?

有時候我讀了一本好書,我希望我10年前就讀過這本書,要是10年前就讀了可能我的生活是如此的不同,儘管這是最近發生的。在我們發現的過程中,不斷地發現那些事後看起來如此明顯的東西,它總是比我想要弄清楚的時間要長得多。

我最自豪的滿足和幸福的就是我的女兒,但我沒有花足夠的時間來陪陪她。

幫助別人也能使我得到滿足,對我來說,生命的意義是希望別人實現他們的夢想,我希望試圖通過使人類作為一個整體更加強大來推動世界的前進。所以,當我知道別人因為我變得好一些的時候,我也會非常自豪和幸福。


https://www.leiphone.com/news/202003/HhIyJO2DrdVw6AQe.html



來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69946223/viewspace-2679543/,如需轉載,請註明出處,否則將追究法律責任。

相關文章