谷歌大腦負責人談人工智慧:科幻變現實

佚名發表於2016-11-28

11月26日訊息,據《財富》網站報導,Google Brain團隊的聯合創始人傑夫?迪恩在接受《財富》雜誌的採訪時談到,研究者在推動人工智慧時面臨著的挑戰是如何把監督學習和非監督學習結合起來,他還解釋了強化學習這一AI技術的概念、應用範疇以及一些有趣的具體研究例項,例如,強化學習在棋盤遊戲、設定空調旋鈕、讀取街景圖中的所有商業名稱和標誌、分析衛星影像和醫療成像中的應用。

當我們使用谷歌搜尋引擎或用谷歌地圖查詢路線時,幕後實際上有個“大腦”正在執行,它負責提供相關的搜尋結果,或確保谷歌地圖的使用者在駕駛時不會迷路。

不過,它不是人腦,而是Google Brain(谷歌大腦)研究團隊。該團隊已創立了1000多個深度學習專案,在過去數年中,這些專案讓YouTube、翻譯和Photos等許多谷歌產品的效能得到了大幅提升。利用深度學習技術,研究者可將大量資料輸入到名為神經網路的軟體系統中,這些神經網路能夠比人類更快地識別出海量資訊中的模式。

在接受《財富》雜誌採訪時,Google Brain的聯合創始人兼領導人之一傑夫?迪恩(Jeff Dean)談到了最前沿的AI研究、其中涉及的挑戰以及AI在產品中的應用。

以下為訪談主要內容:

研究者在推動人工智慧時面臨著什麼挑戰

人類學習大多源自無監督學習,人們只是觀察著周圍的世界,並理解著周邊事物的表現。而機器學習十分活躍主動,但一些相關的問題還未徹底解決,因此還不屬於監督學習的範疇。

無監督學習是指透過觀察和感知學習,如果計算機可以自己觀察和感知,那麼能否有助於解決更復雜的問題?

人類視覺主要以無監督學習的方式得到訓練。一個小孩在觀察世界時偶爾會得到一個監督式訊號,別人會說,“這是一隻長頸鹿”或“這是一輛車”。而孩子的內心世界自然會對他獲得的少量監督式資料做出響應。

我們需要對監督學習和非監督學習展開更多組合操作。但就目前大多數機器學習系統的工作狀況來看,我們還未真正實現那個階段。

能否解釋一下強化學習(reinforcement learning)這種AI技術?

強化學習背後的理論是,在不知道下一步採取什麼行動時,可先採取一種你認為可行的行動,再觀察結果如何,進而摸索一系列行動可能產生的結果。例如,在棋盤遊戲中,對對方的棋法做出回應後,最終經過一系列訓練,你就可以獲得某種獎勵訊號。

加強學習是,把獎勵或責備與你所採取的所有行動相關聯,並逐步獲得獎勵訊號。目前在某些領域這一技術確實很有效。

強化學習面臨的挑戰是,可能採取的行為範疇相當寬泛。在現實生活中,人類會採取各種各樣的行動。而在棋盤遊戲中,可下的棋步是有限的,遊戲規則會起到一定的約束作用,獎勵訊號也十分明朗——贏或輸。

如果目標是研磨一杯咖啡,那麼可採取的行動有很多可能性,獎勵訊號就沒有那麼明確了。

但我們仍可以把步驟分解清楚。例如,在研磨咖啡時,我們可能學到,在沖泡之前,咖啡豆若沒有完全磨碎,泡出的咖啡味道就會很糟糕。

增強學習往往需要探索。因此在物理環境中應用這一技術有點困難。我們開始嘗試在機器人中應用這一技術。當機器人必須採取某種行動時,它會受到行為種類的限制。在計算機模擬中,我們可利用大量計算機、獲得數百萬個範例,應用起來就變得容易多了。

谷歌是否會在核心搜尋產品中融入強化學習技術?

谷歌在核心產品中應用強化學習主要是透過DeepMind(谷歌在2014年收購的AI初創公司)與資料中心操作人員之間的協作來實現的。他們利用強化學習來設定資料中心的空調旋鈕,同時極大地節約了消耗的功率。強化學習技術能夠探索怎麼有效地設定旋鈕,以及以不同方式旋轉旋鈕時需如何響應。

透過強化學習,工作人員發現原來這18個旋鈕可以這樣設定,此前他們根本不會這麼考慮。而且,事實證明,雖然這種設定看起來很奇怪,但執行得相當不錯。

強化學習應用於哪類任務更為適合?

上述例子中,強化學習技術的旋鈕設定方案執行得不錯,因為每次可執行的操作並不多。只有18個旋鈕,我們把旋鈕調高調低就行了。結果很容易觀察到。在適當的溫度範圍內,如果功率使用率得到改善,就可獲得獎勵訊號。從這個角度來看,這幾乎可稱得上是一個理想的強化學習案例。

更為棘手的例子或許是它在搜尋結果中的應用。對於不同的查詢請求,可呈現的搜尋結果比旋鈕設定要寬泛得多,而且獎勵訊號有點難辦——使用者對搜尋結果是否滿意,這不好判斷。

如果使用者對搜尋結果不滿意,你要怎麼提供獎勵訊號?

這有點棘手。這說明了,強化學習還不夠成熟,還不足以在無約束的、獎勵訊號不那麼明顯的環境中實現真正的運作。

把研究成果應用於人們每天使用的實際產品時,你們面臨哪些最嚴峻的挑戰?

很多機器學習解決方案以及對這些解決方案的研究可在不同的領域中重複使用。例如,我們與地圖團隊合作展開了一些研究。他們想要讀取出現在街景中的所有商業名稱和標誌,以便更好地瞭解街道的具體環境,例如,這條街上開了比薩店還是其他什麼店。

事實證明,為了在街景圖中識別文字,我們可以提供一些已經圈出文字的示例資料,訓練機器學習系統形成一種檢測出影像文字畫素的行為模式。

這是一個通用的功能,地圖團隊可使用這個功能來分析衛星影像,例如,用來識別美國或世界各地的屋頂來估計太陽能電池板的安裝位置。

同樣的模型也可用於醫學成像分析上。例如,分析醫療影像,找到影像中與臨床相關的資訊。(靈越)

583a74b4893e5.jpg

相關文章