Google Brain推出語音識別新技術、面部表情識別助力商業再發展|AI一週學術

大資料文摘發表於2019-04-29

Google Brain推出語音識別新技術、面部表情識別助力商業再發展|AI一週學術

大資料文摘專欄作品

作者:Christopher Dossman

編譯:fuma、雲舟

嗚啦啦啦啦啦啦啦大家好,本週的AI Scholar Weekly欄目又和大家見面啦!

AI Scholar Weekly是AI領域的學術專欄,致力於為你帶來最新潮、最全面、最深度的AI學術概覽,一網打盡每週AI學術的前沿資訊。

週一更新,做AI科研,每週從這一篇開始就夠啦!

本週關鍵詞:語音識別、環境聲音分類、CNN、面部表情識別

本週熱門學術研究

Google Brain推出語音識別新技術、面部表情識別助力商業再發展|AI一週學術


語音自動識別技術:SpecAugment

受先前語音和視覺領域增強成功的啟發,Google Brain最近提出了SpecAugment,一種資料增強方法,它操作輸入音訊的對數mel光譜圖,而不是原始音訊本身。

SpecAugment方法不但非常簡單,計算成本也很低,因為它直接作用於對數mel光譜圖,而不需要額外的資料。這種簡單的方法非常有用,並使研究人員能夠訓練端到端的監聽參與和拼寫ASR網路。

通過使用簡單的手工策略增加訓練集,即使沒有語言模型的幫助,研究人員也能夠在端到端的LAS網路上獲得librispeech 960h和Switchboard 300h超越混合系統的效能。它優於複雜的混合系統,通過使用更大的網路和更長的訓練時間,SpecAugment能夠達到最先進的效果。

Google Brain推出語音識別新技術、面部表情識別助力商業再發展|AI一週學術

潛在效果及應用

全球自動語音識別(ASR)市場預計在2016年至2024年間以超過15%的複合年增長率增長。隨著先進電子裝置的飛速使用,人們對開發尖端功能和效率的需求越來越大,這樣的功能和效率提高了應用的ASR精度。

SpecAugment顯著提高了ASR的效能,並可能成為人工智慧工程師驅動下一代ASR應用程式所需的必要條件,這些應用程式包括機器人、互動式語音響應、自定義詞典、視訊遊戲、語音驗證、家用電器等。

原文:

https://arxiv.org/pdf/1904.08779.pdf

使用一維CNN的端到端環境聲音分類模型

加拿大的一組研究人員最近提出了一個端到端的一維CNN環境聲音分類模型。根據音訊訊號的長度,該模型由3-5個卷積層組成。與許多傳統方法實現二維表示的傳統模型不同,這一模型是直接從音訊波形中學習分類器。

Google Brain推出語音識別新技術、面部表情識別助力商業再發展|AI一週學術

在對包含8732個音訊樣本的資料集進行評估時,新方法演示了幾種相關的分類器表示,其結果超越了現有的基於二維例項和二維CNN的最優效果。

此外,在環境聲音分類方面,該模型比大多數其他CNN體系結構的引數都要少,與傳統的二維體系結構相比,平均精度要高出11%到27%。

潛在應用及效果

根據這篇論文的評價結果,該方法在提供高度魯棒的環境聲音分類應用上具有很好的應用前景。

對於初學者來說,它的效率很高,與傳統的2D CNN相比,它只需要很少的訓練資料(後者需要數百萬個訓練引數)。它還實現了最先進的效能,可以通過實現滑動視窗處理任意長度的音訊訊號。最後,它緊湊的體系結構大大降低了計算成本。

原文:

https://arxiv.org/abs/1904.08990v1

基於深度學習的面部表情識別研究

研究人員最近開發和訓練了一種基於面部表情識別的CNN,並探討了其分類機制。這一方法採用反摺積視覺化方法,將CNN的極值點投影回原始影像的畫素空間。他們還設計了距離函式來測量面部特徵單元的存在與CNN特徵圖上最大響應值之間的距離。

Google Brain推出語音識別新技術、面部表情識別助力商業再發展|AI一週學術

CNN特徵圖是通過比較特徵圖中所有面部特徵元素的最大距離和麵部特徵元素之間的對映關係來確定的,如果距離較大,則對面部特徵變得敏感。在訓練過程中,研究人員驗證了該方法對人臉動作單元的檢測能力,實現了人臉表情識別。

潛在應用及效果

面部表情識別是測試任何內容、產品或服務的最佳方法之一,這些內容、產品或服務可能引起情緒喚醒和麵部反應,因此,該方法可以應用於即時檢測面部表情、編碼面部表情和識別情緒狀態。

包括消費者神經科學、神經營銷、多媒體廣告、心理學研究、臨床心理學、心理治療、人工社會代理(avatar)工程在內的許多應用都可以從研究中受益匪淺。

原文: 

https://arxiv.org/abs/1904.09737v1

機器學習在網路安全上的應用 – 當今問題,挑戰和資料集

新發布的研究提出了一些機器學習的挑戰,研究人員需要處理這些挑戰才能成功地將機器學習應用於網路安全。

其中一個重要問題是對惡意軟體的分類和檢測。識別惡意程式並不容易,因為攻擊者常常會使用多型,模擬,壓縮和混淆來逃避檢測。不僅如此,一些其他同樣嚴峻的問題也引起了廣泛擔憂,比如說該領域專家過少,導致標記樣本不夠,大量標籤錯誤,資料集不平衡,識別惡意來源非常困難等等。

獲取資料集:由於解決網路安全問題的一個主要障礙是缺乏適當的資料集,研究人員提供了獲得資料集的途徑,使學術界能夠調查問題並提出應對挑戰的方法。他們還提出了一種通過旋轉生成標籤的方法,為網路安全中缺乏標籤的常見問題提供瞭解決方案。

潛在應用及效果

研究人員認為,機器學習在網路安全中的應用可以提升。他們還認為,網路社群有責任幫助機器學習社群在這一領域變得更加活躍。

目前,我們還是缺乏足夠合格且經驗豐富的網路安全分析師來最大限度地減少全球網路攻擊。

為了獲得對可用資料集的訪問許可權,研究人員只需要聯絡data-sets@paloaltonetworks.com並附上“訪問資料請求”。

原文: 

https://arxiv.org/abs/1812.07858v3

用於連續圖分類的新模型

ML學者提出了一種簡單、靈活但功能強大的方法來處理ML中的圖,該方法使用擴充套件的永續性圖來實現高效的圖結構編碼。具體來說,這一方法在計算擴充套件永續性圖中使用熱核特徵以快速、有效地進行圖結構總結。

此外,他們建立在最近的神經網路點雲結構之上定義了擴充套件永續性圖的架構,該架構整合性強且易於使用。

Google Brain推出語音識別新技術、面部表情識別助力商業再發展|AI一週學術

他們通過在幾個圖形資料集上驗證它證明了新方法的有效性。雖然所提出的架構比其對應的架構簡單得多,但結果表明它可以在幾個圖形分類任務上實現最先進的結果。

潛在應用及效果

這對於許多真實世界的圖表分類資料集來說確實是個好訊息,例如網路連結資料,社交網路,分子結構,地理地圖等。此外,該架構對非結構化資料非常有用,包括用於進一步分析所可能需要的影像和文字圖形表格建模。

原文:

https://arxiv.org/abs/1904.09378v1

其他爆款論文

一種新的基於深度學習的模型證明了它對去噪資料的有用性,並允許從噪聲資料中精確逼近導數。

https://arxiv.org/pdf/1904.09406v1.pdf

BERT令人驚訝的跨語言效果。

https://arxiv.org/abs/1904.09077v1

一種簡單,易於實現但有效的方法,不需要進行廣泛的重新訓練,並且可以跨域進行良好的泛化,以實現少數自然語言生成(NLG)。

https://arxiv.org/pdf/1904.09521v1.pdf

使用BERT生成文字的自動評估指標,可以更好地與人類判斷相關聯,並優於現有指標。

https://arxiv.org/abs/1904.09675v1

基於點雲檢索的上下文資訊三維注意力圖學習新模型。

https://arxiv.org/abs/1904.09793v1

AI新聞

AI能幫我們寫出更好的法律嗎?

https://www.forbes.com/sites/kalevleetaru/2019/04/24/could-ai-help-us-write-better-laws/#153d0ec95529

推薦演算法主宰世界。

https://www.wired.com/story/how-recommendation-algorithms-run-the-world/

這個機器可以讀心,也可以交談 

https://www.wired.com/story/machine-reads-your-mind-talks/

TensorFlow推出了MLIR來加快編譯速度,簡化機器學習模型的硬體優化。

https://www.infoworld.com/article/3390659/tensorflow-unveils-mlir-for-faster-machine-learning.html

2019-2025醫療保健應用全球人工智慧市場報告。

https://www.marketwatch.com/press-release/artificial-intelligence-for-healthcare-applications-market-2019-global-trends-size-share-status-swot-analysis-and-forecast-to-2025-2019-04-24?mod=mw_quote_news

Google Brain推出語音識別新技術、面部表情識別助力商業再發展|AI一週學術
專欄作者介紹

Christopher Dossman是Wonder Technologies的首席資料科學家,在北京生活5年。他是深度學習系統部署方面的專家,在開發新的AI產品方面擁有豐富的經驗。除了卓越的工程經驗,他還教授了1000名學生了解深度學習基礎。

LinkedIn:

https://www.linkedin.com/in/christopherdossman/

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31562039/viewspace-2642889/,如需轉載,請註明出處,否則將追究法律責任。

相關文章