2019
- 一月 - 3D 姿勢估計
姿勢估計器將視訊作為輸入,並輸出與視訊中存在的人類個體的姿勢相對應的圖形。
建立可靠且實時的 3D 姿勢估計器的當前困難包括這樣的事實:幾乎沒有訓練資料,以及必須考慮遮擋的事實。例如,如果特定身體部位被阻擋而不能看到,則姿勢估計器仍必須能夠從身體其餘部分的位置推斷出其位置。
該模型優於所有現有模型,因為它建立姿勢的 2D 和 3D 表示。它使用初始 2D 姿態估計,然後利用將該 2D 估計轉換為 3D 形式的神經網路。然後,它使用 3D 到 2D 神經網路網路將姿勢轉換回 2D 形式,這有助於通過自我監督校正機制改進中間 3D 姿勢預測,該機制可以檢測第一個 2D 到 3D 的準確度神經網路。
網路允許在大約 50 毫秒內獲得姿勢估計,其接近每秒 20 幀。這接近實時,適用於姿勢估計的許多應用
- 二月 - SC-FEGAN:面部編輯 GAN
該 AI 能夠從一組可控模式生成逼真的影象。它建立在該領域以前的幾篇論文的基礎上 - 第一篇是從稀疏描述中生成影象的論文(比如一個判決書),第二篇是允許定製影象上的面部特徵的論文(例如合併兩個不同的面孔)。
這種技術允許我們編輯更具體的因素 - 例如,在某人的臉上微笑或刪除個人的太陽鏡。顏色也可以改變 - 例如,可以操縱一隻眼睛的顏色。它非常快,使用 512 x 512 影象建立這些影象只需 50 毫秒。
它在電影製作的編輯行業中有應用,但也可以被尋求對其照片進行簡單編輯的新穎消費者使用。雖然目前沒有可用的網路應用程式,但它確實公開了其原始碼。
- 二月 - 深度規劃網路(PlaNet)
谷歌的 PlaNet AI 旨在學習如何規劃必須採取的一系列步驟,以執行物理目標 - 執行,杆平衡或像人一樣行走。 AI 必須以與人類相同的方式學習 - 通過檢視這些影象的畫素(這需要對上下文的視覺理解)。
AI 使用稀疏獎勵方法,這意味著它幾乎無法獲得有關這些任務的效能的反饋。然而,這與經典的強化學習方法之間的關鍵區別在於,這種 AI 使用模型進行學習。這意味著它不是從頭開始學習每一項新任務,而是利用它從以前的活動中獲得的基本理解(例如引力的性質),並將其應用於未來的任務。因此,它在學習遊戲時有一個良好的開端,使其效率通常比從頭開始學習的技術高 50 倍。
它在大多數任務中明顯優於其他最先進的 AI 系統,例如獵豹跑步或人行走。該代理不需要對每項活動進行單獨培訓,因為它會混合其培訓。此外,它可以僅使用 5 幀參考特定活動來學習它,相當於大約五分之一秒的素材。然後,它可以學習如何在更長的時間內繼續此活動。
- 三月 - 人類可以破譯對抗性影象
雖然最近的卷積神經網路系統在影象檢測問題上已超過人類表現,但問題確實存在 - 只需修改影象中的一個或兩個畫素就可以使系統將影象分類為極為不同的東西。例如,重新配置一兩個畫素就是計算機將蘋果分類為汽車所需的全部內容。這種 “愚弄” 影象識別系統的能力被批評為這種系統無法以與人類相同的方式解釋影象的跡象,儘管最近的一篇論文表明情況可能並非如此。
在一篇論文中,一對認知心理學家展示了一組超過 1800 個主題的影象,這些影象已經欺騙了計算機,將其分類為錯誤的標籤。他們問人們計算機預測物件的兩種選擇中的哪一種 - 一種選擇是計算機的真實結論,另一種是隨機答案。受試者在 75%的時間內選擇與計算機相同的答案,其中 98%的人傾向於像計算機那樣回答。
接下來,研究人員讓受試者在系統的答案和對猜測錯誤的影象的下一個最佳猜測之間做出選擇。再次,受試者再次驗證了計算機的選擇 - 91%的受試者同意系統的決定。
因此,該研究提供了一定程度的證據表明卷積神經網路架構的明顯缺陷可能沒有許多人想象的那麼糟糕。它提供了一個新的視角,以及一個可以探索的新實驗正規化。
2018
- 四月 - ProGanSR
為了實現超解析度,允許將低解析度影象轉換為更高解析度的影象,本文建議通過漸進方法改善影象解析度。它需要幾個中間步驟,其中產生的影象略好於前一個,稱為 “課程學習”。
本文使用的是 GAN,而不僅僅是 CNN。與最先進的模型相比,使用本文提出的方法生成的影象精度略低,但速度是其 5 倍。
機器學習模型的最終目標是在新的,看不見的例項上準確地預測輸出。因此,在訓練機器學習模型時,測試資料不參與建立模型的過程至關重要,因為這會給測試集帶來偏差。不幸的是,我們通常只能從同一個發行版訪問新資料,導致許多研究人員使用測試集代替驗證集。這允許根據所選測試集的分佈來優化諸如學習速率的超引數。
該研究論文提出了一個新的測試集,其中包含大約 2000 個例項,這些例項與 CIFAR-10 資料集的測試集的分佈相匹配,這是一個眾所周知的資料集,許多現代影象分類器模型都經過測試。然後評估 30 種不同的現代影象分類模型的效能。它發現從原始測試集到新測試集的準確性有顯著下降 - 例如,VGG 和 ResNet 架構從其完善的 93%精度下降到大約 85%。然而,分類器相對於彼此的效能保持或多或少是恆定的 - 因此,分類器的效能分佈可以被認為是簡單地水平移位。
結果對當前分類器的穩健性產生了懷疑。廣泛使用的模型的分類準確性顯著下降 - 例如,VGG 和 ResNet 的準確度損失對應於 CIFAR-10 資料集的多年進展。因此,分配轉移質疑當前模型真正推廣的程度
- 六月 - RF-Pose
本文通過牆壁和遮擋提供準確的人體姿勢估計。它利用了 WiFi 頻率中的無線訊號穿過牆壁並反射出人體的事實,並使用深度神經網路方法來解析這些無線電訊號以估計 2D 姿勢。無論光照條件如何,姿勢估計都能很好地工作,並且還可以檢測多個人。
在網路中,有一個教師網路,可以檢視牆壁的彩色影象,並預測人體所處的姿勢。還有一個學生網路將訊號作為輸入,並瞭解不同的分佈意思是,它們與不同的人類姿勢和姿勢有何關聯。教師網路向學生網路顯示正確的結果,學生學習如何通過無線電訊號而不是影象來製作它們。
除了用於互動式視訊遊戲中的動作捕捉,以及幫助為電影建立特殊效果之外,姿勢估計還可用於幫助檢測患者姿勢的問題,跟蹤動物的活動,理解手語和自己的行人活動。 - 駕駛汽車。
本文強調了一種評估影象分類器在抵抗損壞和擾動能力方面的效能的方法。它建立了兩個資料集 - ImageNet-C(用於損壞)和 ImageNet-P(用於擾動) - 這有助於測試影象分類器對這種變化的穩健性,這在現實場景中很常見。
在影象的上下文中,損壞通過扭曲其細節來描述對基本影象的修改。本文在 ImageNet 影象上使用了 15 種不同的損壞函式,每種函式都有 5 個嚴重級別。這些損壞函式描述的方法包括高斯噪聲,雪和畫素化的新增。
擾動通過變換方法改變其外觀來描述影象的扭曲。本文在 ImageNet 影象上使用了 8 種不同的擾動函式,包括縮放,傾斜和平移。
使用從 ImageNet-C 和 ImageNet-P 資料集中獲得的影象測試分類器,通過在每種型別的所有函式和所有嚴重級別上平均其準確性,本文建立了關於其對損壞和擾動的魯棒性的魯棒性評分。
- 七月 - Phrank
所產生的演算法使基因診斷中最勞動密集的部分自動化,即將患者的基因序列和症狀與科學文獻中描述的疾病相匹配。如果沒有計算機幫助,這個匹配過程每個患者需要 20 到 40 個小時 - 這個過程需要專家檢視大約 100 名患者可疑的突變列表,做出有根據的猜測,哪一個可能導致疾病,檢查科學文學,然後繼續下一個。 Bejerano 團隊開發的演算法將所需時間縮短了 90%。
演算法的名稱,Phrank,一個 “表型” 和“等級”的混搭,給出了它如何工作的暗示:它將患者的症狀和基因資料與醫學文獻知識庫進行比較,然後簡單地生成一個排序列表,其中罕見的遺傳性疾病最容易引起症狀。平均而言,Phrank 在其產生的潛在診斷列表中將真正的診斷排在第 4 位。
- 十二月 - GAN 剖析
本文提出了一個框架,用於在單元,物件和場景級別視覺化和理解 GAN。它提供了生成場景影象,識別對作為場景一部分的特定物件有貢獻的 GAN 單元或神經元的能力,然後利用這些來啟用或停用該特定物件的存在。因此,這使我們能夠在不需要 Photoshop 等工具的情況下操作影象。
例如,如果我們有一個教堂的影象,我們可以向這個框架表明我們希望移除影象中存在的門。因此,框架將移除門,同時以合適的方式保持影象的其餘部分的結構。如果需要,我們可以將門新增回去。除此之外,我們可以選擇影象的特定區域,我們希望在其中新增新內容 - 例如,我可以在教堂影象的右側新增一棵樹。框架理解樹木在地面上有根,因此在指定位置從地面構建。該框架還能夠識別新增不適合的地方 - 例如,如果我們希望在天空中繪製一扇門,框架將不接受此請求。
該框架使用分段網路和解剖方法來識別與有意義的物件類(如樹)匹配的生成器的各個單元。然後,當它們在影象中被修改時,它啟用和停用對應於每個物件類的神經元 - 例如,插入樹啟用 GAN 中與樹對應的神經元。什麼被允許,這是本文的一個重要發現 - 相同的神經元控制各種環境中的特定物件類,即使物件的最終外觀變化很大。相同的神經元可以開啟 “門” 的概念,即使一個巨大的石牆需要一個朝向左側的大型重型門,或者一個小小屋需要一個面向右側的小型門簾。
- 十二月 - 基於樣式的生成器
這篇由處理器和顯示卡公司 Nvidia 的科學家撰寫的研究論文展示了從樣式轉移文獻中借鑑的生成對抗網路的替代生成器架構的潛力。它允許對人臉中的特徵進行特定的定製和控制。它有可能應用於其他領域,迄今已在汽車和房間上成功測試過。
生成器可以組合影象的不同方面。例如,如果希望將一個面部的性別與另一個面部的性別重疊,則生成器可以這樣做。可以轉移的方面包括性別,頭髮長度,姿勢和眼鏡的存在。
還可以逐個控制發生器的引數而不修改影象的核心內容。例如,可以修改殘茬的存在。
生成器也可以執行插值。這意味著如果我們有兩個影象 A 和 B,則生成器可以建立將這些影象對映到另一個的中間影象。它甚至可以改變過程中的性別。所有中間影象也都是真實的。
2017
當今開發機器學習演算法和系統的組織面臨的一個大問題是隱私 - 消費者不願意讓他人檢視他們的資料,因為這些資料被認為對他們敏感。 Google AI 對聯合學習的新研究提出了一個解決方案。
聯盟學習技術依賴於分散式訓練 - 它允許在通用資料的子集上獨立訓練模型,然後將這些獨立模型組裝成單個主模型。
有幾個用例可以更好地描述它的功能。首先,醫療患者不願意將他們的健康記錄傳送給他們不能信任的其他醫院和組織。 聯盟學習建議每家醫院使用其擁有的有限患者資料構建自己的模型,然後使用 Google 的聯合平均演算法將每個醫院的模型組裝成單個統一模型。其次,假設我們希望訓練一個預測鍵盤,以便在我們的智慧手機上獨特地適合我們的個人打字模式。我們可以使用 Federated 模型,該模型已經根據許多不同使用者及其資料的預測模式進行了訓練和編譯,然後傳遞我們自己的個人鍵盤輸入資料以更新模型以更好地適應我們的個人打字習慣。
聯盟學習技術自那時起就經歷了許多更新和改進,並且當人工智慧在其開發過程中進入以隱私為中心的時代時,它肯定會保持相關性。
假設您需要縮小您的影象而不降低主要功能的準確性,或者您希望從影象中刪除 RGB 顏色,或者如果您在不支援該範圍的螢幕上顯示高動態範圍的影象。雖然有數百個現有結構可以做到這些,但本文描述了一種方法,與現有方法相比,這些結構非常好。
本文提出了深度特徵一致的深度影象變換(DFC-DIT)框架。它利用卷積神經網路(CNN)為輸入影象生成三個輸出 - 縮小版本,脫色版本和 HDR 色調對映版本。它還使用了另一種採用深度特徵一致性原理的預訓練和固定深度 CNN - 這確保了所有主要特徵都保留在影象中。