本文介紹了一些近期在機器學習和人工智慧領域最受歡迎的突破,並附上一些論文、視訊連結和簡要總結。
與其他領域相比,機器學習/人工智慧現在發展的非常快,經常有一些有趣的突破。讓你不由自主的發出“wow”甚至“人間值得”的感嘆!(兩分鐘論文作者的口頭禪)
兩分鐘論文
https://www.youtube.com/channel/UCbfYPyITQ-7l4upoX8nvctg
免責宣告:我並沒有對“振奮人心”或“突破”進行嚴格的定義;這只是一個非正式的清單。我會用可能不那麼嚴格的術語來讓這篇文章更通俗易懂。
從看似不可用的資訊中得出驚人的準確估計
透過牆對人體姿態做估計
麻省理工學院研究人員的網站/視訊,2018年
http://rfpose.csail.mit.edu/
我們可以根據某人對WiFi訊號的擾亂,準確地估計此人在牆壁另一側是如何站著/坐著/走路的。
從視訊中測量材料的物理特性
麻省理工學院研究人員的文章/視訊,2015年
http://news.mit.edu/2015/visual-microphone-identifies-structural-defects-0521
研究人員在2014年首次展示了根據振動情況從薯片包裝袋的視訊(沒有聲音)中重現人類的語音。該成果沒有涉及機器學習。2015年,他們使用機器學習,並展示了通過視訊來估計材料的剛度、彈性、單位面積的重量等(在某些情況下,僅僅空氣正常迴圈引起的振動就足夠了)。
從鍵盤旁邊的智慧手機估計鍵盤敲擊
論文,2015
https://www.sigmobile.org/mobicom/2015/papers/p142-liuA.pdf
研究人員發現,從一臺放在鍵盤旁邊的智慧手機中錄製的音訊,可以以94%的準確率估計鍵盤敲擊。與以前在鍵盤周圍放置許多麥克風的情況下使用有監督的深度學習方法不同,這篇論文實際上使用了相對簡單的機器學習技術(k-均值聚類)和無監督學習。
生成模型
逼真的面部生成、樣式混合和移植
Nvidia研究人員的論文/視訊,2018年
論文
https://arxiv.org/abs/1812.04948
視訊
https://www.youtube.com/watch?v=kSLJriaOumA
研究人員將一種新的結構與大量的GPU結合起來,創造出極其逼真的人造人臉,這些人臉是其他人臉之間的移植,或者是一個人臉到另一個人臉的“樣式”應用。這項工作建立在過去關於生成對抗網路(GANs)的工作之上。GANs是在2014年發明的,從那時起對它的研究就出現了爆炸式增長。GANs最基本的解釋是兩個相互對抗的神經網路(例如,一個是將影像分類為“真實”或“假冒”的神經網路,另一個是以試圖“欺騙”第一個神經網路將假冒影像錯誤分類為真實的方式生成影像的神經網路……因此,第二個神經網路是第一個的“對手”)。
總的來說,關於對抗性機器學習有很多很酷的研究,已經存在了十多年。對網路安全等也有許多令人毛骨悚然的影響,但我再講就跑題了。
很酷的研究
https://github.com/yenchenlin/awesome-adversarial-machine-learning
教機器繪圖
Google Brain的部落格帖子,2017年
https://ai.googleblog.com/2017/04/teaching-machines-to-draw.html
我在Google Brain的好朋友David Ha用一個生成迴圈神經網路(RNN)來繪製基於向量的圖形(除了自動以外,我認為這就是Adobe Illustrator)。
David Ha
https://twitter.com/hardmaru
把炫酷的舞步遷移給不會跳舞的人
加州大學伯克利分校研究人員的網站/視訊,2018年
網站
https://carolineec.github.io/everybody_dance_now/
視訊
https://www.youtube.com/watch?v=PCBTZh41Ris
想想“舞蹈版的Auto-Tune”。通過姿勢估計和生成對抗訓練,研究人員能夠製作任何真人(“目標”人物)跳舞的假冒視訊,視訊中的人舞技精湛。所需輸入僅為:
一段舞蹈高手的跳舞短視訊
幾分鐘目標人物跳舞的視訊(通常很糟,因為大多數人都不擅長跳舞)
我還看到了Nvidia的執行長黃延森(Jensen Huang)展示了一段自己像邁克爾傑克遜一樣跳舞的視訊(用這種技術)。很高興我之前參加了GPU技術大會,哈哈。
強化學習
世界模型-人工智慧在自己的夢裡學習
Google Brain網站,2018年
https://worldmodels.github.io/
人類並不真正瞭解或思考我們生活的世界裡的所有細節。我們的行為基於我們頭腦中世界的抽象。例如,如果我騎在自行車上,我不會想到自行車的齒輪/螺母/螺栓;我只是大致瞭解車輪、座椅和把手的位置以及如何與它們互動。為什麼不對人工智慧使用類似的方法呢?
這種“世界模型”方法(同樣,由David Ha等人建立)允許“agent”(例如,在賽車遊戲中控制汽車的人工智慧)建立一個世界/周圍環境的生成模型,這是對實際環境的簡化/抽象。所以,你可以把這個世界模型看作是一個存在人工智慧頭腦中的夢。然後人工智慧可以通過強化學習在這個“夢”中得到更好的表現。因此,這種方法實際上是將生成性機器學習與強化學習相結合。通過這種方式,研究人員能夠在特定的電子遊戲任務上實現目前最先進的水平。
[2019/2/15更新]在上述“世界模型”方法的基礎上,谷歌剛剛釋出了PlaNet:Deep Planning Network for Reinformation Learning,與以前的方法相比,資料效率提高了5000%。
PlaNet:Deep Planning Network for Reinformation Learning
https://ai.googleblog.com/2019/02/introducing-planet-deep-planning.html
AlphaStar——擊敗頂級職業玩家的星際爭霸II AI
DeepMind(Google)的部落格文章,e-sports-ish視訊,2019年
部落格文章
https://deepmind.com/blog/alphastar-mastering-real-time-strategy-game-starcraft-ii/
e-sports-ish視訊
https://www.youtube.com/watch?v=cUTMhmVh1qs
我們在李世石和DeepMind AlphaGo之間的歷史性圍棋比賽之後已經走了很長的路,這場比賽震撼了全世界,它僅僅發生在3年前的2016年(看看NetFlix紀錄片,讓一些人哭泣)。更令人驚訝的是,儘管沒有使用任何來自人類比賽的訓練資料,2017年的AlphaZero在圍棋方面比AlphaGo更好(也比國際象棋、日本象棋等領域的其他演算法更好)。但2019年的AlphaStar更驚人。
李世石和DeepMind AlphaGo之間的歷史性圍棋比賽
https://en.wikipedia.org/wiki/AlphaGo_versus_Lee_Sedol
NetFlix紀錄片
https://www.netflix.com/sg/title/80190844
自1998年以來,作為一名星際迷,我很瞭解星際的精髓“……需要平衡短期和長期目標,適應意外情況……這是一個巨大的挑戰。”這是一個真正困難和複雜的遊戲,需要多層次的理解才能玩得好。自2009年以來,對星際遊戲演算法的研究一直在進行。
AlphaStar基本上使用了監督學習(來自人類比賽)和強化學習(與自身對抗)的組合來實現其結果。
人類訓練機器人
通過一次人工演示將任務傳授給機器
Nvidia研究人員的文章/視訊,2018年
文章
https://news.developer.nvidia.com/new-ai-technique-helps-robots-work-alongside-humans/
視訊
https://www.youtube.com/watch?time_continue=1&v=B7ZT5oSnRys
我可以想到三種典型的方法來教機器人做一些事情,但都需要大量的時間/勞力:
針對每種情況手動程式設計機器人的關節旋轉等
讓機器人多次嘗試這個任務(強化學習)
多次向機器人演示任務
通常對深度學習的一個主要批評是,產生數以百萬計的示例(資料)是非常昂貴的。但是,有越來越多的方法不依賴如此昂貴的資料。
研究人員根據一個單一的人類演示視訊(一個實際的人類用手移動方塊),找到了一種機器人手臂成功執行任務的方法(例如“拿起方塊並將其堆疊起來,使它們按順序排列:紅色、藍色、橙色”),即使視訊是從不同角度拍攝的。該演算法實際上生成了一個它計劃執行的任務的可讀描述,這對於故障排除非常有用。該演算法依賴於具有姿態估計,合成訓練資料生成和模擬到現實傳遞的物件檢測。
無監督機器翻譯
Facebook人工智慧研究部落格,2018年
https://code.fb.com/ai-research/unsupervised-machine-translation-a-novel-approach-to-provide-fast-accurate-translations-for-more-languages/
通常,你需要一個龐大的翻譯文件訓練資料集(例如聯合國議項的專業翻譯),以便很好地進行機器翻譯(即監督學習)。然後,許多主題和語言之間沒有高質量、豐富的訓練資料。在這篇論文中,研究人員發現,可以使用無監督學習(即不使用翻譯資料,只使用每種語言中不相關的語料庫),達到最先進的監督學習方法的翻譯質量。Wow。
基本思想是,在任何語言中,某些單詞/概念往往會出現在很近的位置(例如“毛茸茸的”和“貓咪”)。他們把這描述為“不同語言中的詞嵌入具有相似的鄰域結構。”好吧,我明白這個想法,但是使用這種方法,他們可以在沒有翻譯資料集的情況下達到如此高的翻譯質量,仍然讓人吃驚。
結語
如果你之前沒有對機器學習/人工智慧的發展感興趣的話,我希望這篇文章能幫到你。也許一年後我會再寫一篇類似的文章。請隨意在這裡留下任何想法/評論,或發電子郵件至jerrychi123@gmail.com。
人間值得!
簡介:Jerry Chi在資料科學、機器學習、資料工程和數字產業戰略方面有豐富的經驗。
原創。經許可轉載。
https://blog.usejournal.com/my-favorite-mind-blowing-ml-ai-breakthroughs-e7b4f3637e3d?gi=cafbb835aaa9
資源:
On-line and web-based: Analytics, Data Mining, Data Science, Machine Learning education
https://www.kdnuggets.com/education/online.html
Software for Analytics, Data Science, Data Mining, and Machine Learning
https://www.kdnuggets.com/software/index.html
相關:
Acquiring Labeled Data to Train Your Models at Low Costs
https://www.kdnuggets.com/2019/02/labeled-data-train-models.html
4 Reasons Why Your Machine Learning Code is Probably Bad
https://www.kdnuggets.com/2019/02/4-reasons-machine-learning-code-probably-bad.html
Artificial Neural Network Implementation using NumPy and Image Classification
https://www.kdnuggets.com/2019/02/artificial-neural-network-implementation-using-numpy-and-image-classification.html
原文標題:
My favorite mind-blowing Machine Learning/AI breakthroughs
原文連結:
https://www.kdnuggets.com/2019/03/favorite-ml-ai-breakthroughs.html