Google研究主管:非技術專家如何利用機器學習解決問題
本文經O'Reilly授權釋出
大資料文摘字幕組出品
編譯:鄔亮、廖榮凡、limbic D、effy、蔣寶尚
機器學習是現在大家都打了雞血想用的技術。
但是,多數人認為只有那些懂技術的專家才能用好它。其實,現在機器學習已經整合到了各個領域,並且對使用者非常友好。一些非技術的小白完全能夠使用現成的軟體解決自己領域的專業問題。
這次,我們為大家帶來了Google研究主管 Peter Norvig在O'Reilly和Intel共同舉辦的AI Conference舊金山站所做的演講——《AI的應用廣度:正在擴充套件中》,來看看那些非計算機領域的專家如何利用機器學習解決問題。
首先講一個熟悉的故事,這個故事是關於人工智慧和機器學習技術的快速發展的,具體來說時候發生在2010年。
那時理論學家,數學家,和電腦科學家開始重新關注神經網路和機器學習技術,並且在這些方面取得了一些進展,並且讓一些應用的效能有了很高的提升。
就拿熟悉的計算機視覺來說,2010年ImageNet比賽的競賽成績和錯誤率,已經取得不錯的成績,而且在那之後我們很快達到並且超過人類水平。
在自然語言方面我們也有相似的故事,上圖裡表示的是我們在機器翻譯方面的進展,縱軸是翻譯質量,越高代表結果越好,橫軸代表不同語言的翻譯任務。藍色是傳統統計模型的最好成績,綠色是新一代的端到端神經網路模型。
注:端到端指的是輸入是原始資料,輸出是最後的結果,特徵提取這一步融入到演算法當中,不需要人為干預。
透過這兩個“故事”,我們可以知道傳統模型和人類間的差距,已經被新一代技術追上了一半甚至90%,可以說機器翻譯幾乎已經發展到人類翻譯的水平了。
技術進步的背後
技術進步的背後
對於這些偉大的技術突破,我們要感謝人工智慧領域內的幾位大師,比如Feifei,Jeff和Quoc 等。他們已經在相關領域鑽研多年,提出創新的理論並把這些創新應用到實踐。
同時另外一些專家也在這方面做出了貢獻。Bengio說: 哎 我覺得啟用方程不應該這麼彎彎曲曲的,我覺得它應該是條直線。Goodfellow說:我們不應該只訓練一個網路,我們應該同時訓練兩個然後讓他們倆打架。然後Sergey說:我們不應該只隨機打亂資料一次,因為我們有可以平行計算的機器,我們應該最佳化資料隨機化方式,我們把各種技術都融合在一起。
正是因為這些學者的努力,才能建立了我們今天的機制,才達到了今天取得的技術進展。
非專家也能用機器學習解決問題
我們現在更需要的是各個領域的從業者主動參與進來。雖然我們不是機器學習專家,但是我們知道該如何解決我們領域中需要解決的問題。
可能你的疑問是機器學習工具能幫助我們解決這些問題麼?下面有幾個很棒的案例將會回答你。
機器學習破解引力透鏡效應
史丹佛大學的一些天體物理學家希望探索引力透鏡效應。
引力透鏡效應:愛因斯坦的廣義相對論所預言的一種現象。由於時空在大質量天體附近會發生畸變,使得光線經過大質量天體附近時發生彎曲。如果在觀測者到光源的直線上有一個大質量的天體,則觀測者會看到由於光線彎曲而形成的一個或多個像,這種現象稱之為引力透鏡現象。
如果我們能弄清楚這個過程,我們就完全可以測量出第二個星系的質量,甚至能幫助我們研究更有趣的事情,比如暗物質等等。
一直以來物理學家是這麼解決這個問題的呢?透過光向前傳播的物理公式,如果我們也知道這些星系的質量,我們就可以用超級計算機來模擬出這些光到達地球時的樣子,然後我們比較模擬結果和望遠鏡觀測到的真實結果。如果這兩個結果有差異,我們就回去把星系質量的引數調整一下。但是這個過程非常容易出錯。
顯然機器學習技術能夠求微分,並且可以從模型的結果反向推匯出模型的引數,如果從光線的結果出發來反向推導,機器學習技術似乎能幫助我們解決引力透鏡效應。
幾個月後這些物理學家成功地完成了這項工作,新模型的計算效率比傳統方法要快一千萬倍。這可以說是個很大的進展。
深度學習能夠回溯資料,揭露以往未被發現的行星
科學家們試圖用開普勒望遠鏡尋找系外行星。當行星圍繞恆星執行時,一顆行星圍繞著另一顆恆星執行,就形成了光蝕(類似月蝕),來自恆星的光線也就減弱了。如果這個行星夠大,接近太陽大小,它會遮擋掉大量的光線。我們也就能探測到它了,實際上,我們也就是這麼找星星的,並且使用這種方法我們發現了前幾百顆太陽系外的行星。
但是一旦我們挖掘了所有這些資料,我們可能知道的更多,例如隱藏在太陽系外的小行星還有多少。這種情況下,傳統的統計模型精度就不夠了。需要更精確的模型去探測星空中的其他事情。恆星發出的光線有變化嗎?中間是否有一個小行星場呢?將深度學習應用到這個場景中,我們可以回溯資料,揭露以往未被發現的行星。
預測植物是否得病
對於有些人,你甚至都不用太多的背景知識,就可以透過機器學習直接解決這些問題。這些技術不僅可用於人,也可以用於植物。對於熱帶木薯植物,它們容易患各種疾病,如果你是個有經驗的農民,你大概知道出現上圖這種棕色的東西意味著植物得了這種疾病。
因為我們需要及時治療這些植物,但不是所有農民都那麼有經驗呀。而且,隨著氣候變化,又出現了新的疾病型別。因此在AI時代,農民可以透過手機給植物拍照上傳到雲實時獲取植物的診斷結果。
影片自動生成字幕
另外還有影片自動生成字幕的案例,從某種意義上說,這只是語音識別,但是由於某些原因,它們也不完全相同,對於語音識別當你對著麥克風說話時,一次只有一個說話人。而字幕生成時,有不同的聲音在響,像撞車聲啊,爆炸聲啊,等等這些。
而字幕生成的任務也不僅僅是把影片中的聽到的詞語組合在一起,你得判斷出哪些是需要出現在字幕中的詞語。哪些是應該忽略的詞語,你還得考慮何時需要加上一些備註。比如用括弧新增“音樂響起”之類的說明。可見,字幕生成是比講話識別複雜得多的問題。而這類問題正是機器學習的用武之地。機器學習可以告訴你:雖然無法提前預知要發生的一切,但根據以往的案例,我們仍然有可能做出某些判斷。
拍照不再依賴專業的相機
很多人喜歡用專業的相機來拍照,不僅是因為更清晰,而且專業相機的鏡頭可以把背景虛化,拍出的照片更加有美感。
機器學習背景下,軟體做到這一點。雖然我們不能用軟體處理相機上的鏡頭,但我們可以剖析一張圖片,找到前景是什麼,背景又是什麼,然後將背景進行適度的虛化,上圖展示的每一張圖片,都顯示了機器學習能做的工作。
分析偏見
偏見普遍存在,例如性別偏見和社會上的各種其他偏見。最明顯體現在電影當中。在電影中我們可以剖析每部電影的角色畫面時間和角色發聲時間,然後用機器學習技術自動分析,誰在畫面當中,在做什麼,誰是主要角色,誰是發聲的角色等等
然後可以展示資料,結果可能稍微有點複雜,不過基本上資料確實顯示偏見的存在
當女性做電影主角的時候,她的畫面時間要多於男性角色,但只多一點。而當男性做主角的時候他們的畫面時間要多得多,這說明偏見確實存在。
機器學習大幅度提高工作效率
上面的例子說明:機器學習用資料能夠告訴我們很多,但並不是機器學習專家才能使用。只要有一個想要探索的目標和探索的方向,並且想要簡單的過程,想要直接告訴技術人員,希望他們當天提供分析的結果,而不是進行復雜建模然後在一年以後給出答案,機器學習顯然能夠幫大忙。
作為實踐者我們可以說,我們不需要在每個環節都諮詢專家,我們可以提出任何想要解決的問題,使用更快、更好、更經濟和更新的方法,利用機器學習的各種應用來解決這些問題。因為機器學習現在已經給我們提供了可以輕鬆使用的工具。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31562039/viewspace-2637488/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 英雄帖 | 深圳&廣州&珠海招募“機器學習Google開發技術專家”機器學習Go
- 【技術分享】如何使用FMEA解決問題?
- 如何自行解決Oracle的技術問題? (zt)Oracle
- 一個非技術問題的問題
- 面試常見的非技術問題面試
- TabNine 利用機器學習技術來補全專案程式碼機器學習
- 利用errorstack event解決問題Error
- 招募TensorFlow領域的Google開發技術專家Go
- 丟人啊,專家們竟然說google的技術不行Go
- 解決機器學習問題有通法機器學習
- 如何解決機器學習樹整合模型的解釋性問題機器學習模型
- 區塊鏈技術在解決什麼問題?區塊鏈
- 技術社群中的非技術話題
- TensorFlow技術主管Peter Wardan:機器學習的未來是小而美機器學習
- 如何利用虛擬化技術解決物聯網開發難題?從瞭解ACRN開始
- Facebook、谷歌技術專家同心協力設計癌症研究遊戲谷歌遊戲
- 自學前端程式設計非技術性問題及解決辦法和學習方法總結前端程式設計
- “BIM關鍵技術研究”專題徵稿啟事
- 前端安全沙箱技術如何解決開源安全問題?前端
- 阿里技術專家詳解 DDD 系列- Domain Primitive阿里AIMIT
- 技術主管的瑞士軍刀
- IT職場:如何將TRIZ應用於非技術領域的創新問題?
- 從技術到工具再到落地,Pivotal多位技術專家詳解Greenplum
- InMyArea:研究顯示47%的僱員自己花錢解決在家工作的技術問題
- 解決機器學習問題的一般流程機器學習
- 機器學習 - 決策樹:技術全解與案例實戰機器學習
- 【譯】Googler如何解決程式設計問題Go程式設計
- 天美F1技術美術專家:技術美術的未來前景如何?
- IDC企業如何解決常見的技術問題
- 如何利用六西格瑪解決車載導航研發問題?
- 如何利用ABAQUS解決汽車燃油箱模擬問題和難點?
- Google 怎麼解決長尾延遲問題Go
- 通過IPFS技術解決NFT的永久儲存問題
- BIM,PIM接入GIS 需要解決的關鍵技術問題
- 解決IP盜用問題的三種技術手段 (轉)
- 前端生成海報圖技術選型與問題解決前端
- 如何快速應用機器學習技術?機器學習
- 如果我是一線技術主管……