Google Brain推出語音識別新技術、面部表情識別助力商業再發展|AI一週學術
大資料文摘專欄作品
作者:Christopher Dossman
編譯:fuma、雲舟
嗚啦啦啦啦啦啦啦大家好,本週的AI Scholar Weekly欄目又和大家見面啦!
AI Scholar Weekly是AI領域的學術專欄,致力於為你帶來最新潮、最全面、最深度的AI學術概覽,一網打盡每週AI學術的前沿資訊。
週一更新,做AI科研,每週從這一篇開始就夠啦!
本週關鍵詞:語音識別、環境聲音分類、CNN、面部表情識別
本週熱門學術研究
語音自動識別技術:SpecAugment
受先前語音和視覺領域增強成功的啟發,Google Brain最近提出了SpecAugment,一種資料增強方法,它操作輸入音訊的對數mel光譜圖,而不是原始音訊本身。
SpecAugment方法不但非常簡單,計算成本也很低,因為它直接作用於對數mel光譜圖,而不需要額外的資料。這種簡單的方法非常有用,並使研究人員能夠訓練端到端的監聽參與和拼寫ASR網路。
透過使用簡單的手工策略增加訓練集,即使沒有語言模型的幫助,研究人員也能夠在端到端的LAS網路上獲得librispeech 960h和Switchboard 300h超越混合系統的效能。它優於複雜的混合系統,透過使用更大的網路和更長的訓練時間,SpecAugment能夠達到最先進的效果。
潛在效果及應用
全球自動語音識別(ASR)市場預計在2016年至2024年間以超過15%的複合年增長率增長。隨著先進電子裝置的飛速使用,人們對開發尖端功能和效率的需求越來越大,這樣的功能和效率提高了應用的ASR精度。
SpecAugment顯著提高了ASR的效能,並可能成為人工智慧工程師驅動下一代ASR應用程式所需的必要條件,這些應用程式包括機器人、互動式語音響應、自定義詞典、影片遊戲、語音驗證、家用電器等。
原文:
使用一維CNN的端到端環境聲音分類模型
加拿大的一組研究人員最近提出了一個端到端的一維CNN環境聲音分類模型。根據音訊訊號的長度,該模型由3-5個卷積層組成。與許多傳統方法實現二維表示的傳統模型不同,這一模型是直接從音訊波形中學習分類器。
在對包含8732個音訊樣本的資料集進行評估時,新方法演示了幾種相關的分類器表示,其結果超越了現有的基於二維例項和二維CNN的最優效果。
此外,在環境聲音分類方面,該模型比大多數其他CNN體系結構的引數都要少,與傳統的二維體系結構相比,平均精度要高出11%到27%。
潛在應用及效果
根據這篇論文的評價結果,該方法在提供高度魯棒的環境聲音分類應用上具有很好的應用前景。
對於初學者來說,它的效率很高,與傳統的2D CNN相比,它只需要很少的訓練資料(後者需要數百萬個訓練引數)。它還實現了最先進的效能,可以透過實現滑動視窗處理任意長度的音訊訊號。最後,它緊湊的體系結構大大降低了計算成本。
原文:
基於深度學習的面部表情識別研究
研究人員最近開發和訓練了一種基於面部表情識別的CNN,並探討了其分類機制。這一方法採用反摺積視覺化方法,將CNN的極值點投影回原始影像的畫素空間。他們還設計了距離函式來測量面部特徵單元的存在與CNN特徵圖上最大響應值之間的距離。
CNN特徵圖是透過比較特徵圖中所有面部特徵元素的最大距離和麵部特徵元素之間的對映關係來確定的,如果距離較大,則對面部特徵變得敏感。在訓練過程中,研究人員驗證了該方法對人臉動作單元的檢測能力,實現了人臉表情識別。
潛在應用及效果
面部表情識別是測試任何內容、產品或服務的最佳方法之一,這些內容、產品或服務可能引起情緒喚醒和麵部反應,因此,該方法可以應用於即時檢測面部表情、編碼面部表情和識別情緒狀態。
包括消費者神經科學、神經營銷、多媒體廣告、心理學研究、臨床心理學、心理治療、人工社會代理(avatar)工程在內的許多應用都可以從研究中受益匪淺。
原文:
機器學習在網路安全上的應用 – 當今問題,挑戰和資料集
新發布的研究提出了一些機器學習的挑戰,研究人員需要處理這些挑戰才能成功地將機器學習應用於網路安全。
其中一個重要問題是對惡意軟體的分類和檢測。識別惡意程式並不容易,因為攻擊者常常會使用多型,模擬,壓縮和混淆來逃避檢測。不僅如此,一些其他同樣嚴峻的問題也引起了廣泛擔憂,比如說該領域專家過少,導致標記樣本不夠,大量標籤錯誤,資料集不平衡,識別惡意來源非常困難等等。
獲取資料集:由於解決網路安全問題的一個主要障礙是缺乏適當的資料集,研究人員提供了獲得資料集的途徑,使學術界能夠調查問題並提出應對挑戰的方法。他們還提出了一種透過旋轉生成標籤的方法,為網路安全中缺乏標籤的常見問題提供瞭解決方案。
潛在應用及效果
研究人員認為,機器學習在網路安全中的應用可以提升。他們還認為,網路社群有責任幫助機器學習社群在這一領域變得更加活躍。
目前,我們還是缺乏足夠合格且經驗豐富的網路安全分析師來最大限度地減少全球網路攻擊。
為了獲得對可用資料集的訪問許可權,研究人員只需要聯絡data-sets@paloaltonetworks.com並附上“訪問資料請求”。
原文:
用於連續圖分類的新模型
ML學者提出了一種簡單、靈活但功能強大的方法來處理ML中的圖,該方法使用擴充套件的永續性圖來實現高效的圖結構編碼。具體來說,這一方法在計算擴充套件永續性圖中使用熱核特徵以快速、有效地進行圖結構總結。
此外,他們建立在最近的神經網路點雲結構之上定義了擴充套件永續性圖的架構,該架構整合性強且易於使用。
他們透過在幾個圖形資料集上驗證它證明了新方法的有效性。雖然所提出的架構比其對應的架構簡單得多,但結果表明它可以在幾個圖形分類任務上實現最先進的結果。
潛在應用及效果
這對於許多真實世界的圖表分類資料集來說確實是個好訊息,例如網路連結資料,社交網路,分子結構,地理地圖等。此外,該架構對非結構化資料非常有用,包括用於進一步分析所可能需要的影像和文字圖形表格建模。
原文:
其他爆款論文
一種新的基於深度學習的模型證明了它對去噪資料的有用性,並允許從噪聲資料中精確逼近導數。
BERT令人驚訝的跨語言效果。
一種簡單,易於實現但有效的方法,不需要進行廣泛的重新訓練,並且可以跨域進行良好的泛化,以實現少數自然語言生成(NLG)。
使用BERT生成文字的自動評估指標,可以更好地與人類判斷相關聯,並優於現有指標。
基於點雲檢索的上下文資訊三維注意力圖學習新模型。
AI新聞
AI能幫我們寫出更好的法律嗎?
推薦演算法主宰世界。
這個機器可以讀心,也可以交談
TensorFlow推出了MLIR來加快編譯速度,簡化機器學習模型的硬體最佳化。
2019-2025醫療保健應用全球人工智慧市場報告。
Christopher Dossman是Wonder Technologies的首席資料科學家,在北京生活5年。他是深度學習系統部署方面的專家,在開發新的AI產品方面擁有豐富的經驗。除了卓越的工程經驗,他還教授了1000名學生了解深度學習基礎。
LinkedIn:
https://
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31562039/viewspace-2642889/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 語音識別技術竟然發展如此迅速
- 語音識別技術
- 語音識別技術發展漸入佳境 AI企業奮力前行AI
- 表情識別(七)--面部表情識別階段綜述(2018.4)
- 面部識別技術對社會危害大
- 最新最簡易的遷移學習方法,人員再識別新模型 | AI一週學術遷移學習模型AI
- OCR識別技術—增值稅發票識別
- 邊緣計算、語音識別技術、人工智慧將助力PropTech掀起商業地產大革命人工智慧
- 科普丨一文看懂語音識別的技術原理
- 語音識別技術有哪些應用場景?
- 美顏SDK人臉表情識別技術詳解
- 基於人工智慧的微表情識別技術人工智慧
- 聽懂未來:AI語音識別技術的進步與實戰AI
- ai行為識別技術監控AI
- 影像識別技術
- OCR識別技術
- 表格識別技術
- 谷歌再獲語音識別新進展:利用序列轉導來實現多人語音識別和說話人分類谷歌
- 百分點感知智慧實驗室:語音識別技術發展階段探究
- 極鏈科技兩次奪冠Google AI地標識別大賽,推動國內識別檢索技術再進階GoAI
- OCR識別技術—財務報表識別
- 文字識別(二)--字元識別技術總覽字元
- ocr文字識別技術
- 人臉識別:技術應用與商業實踐
- 2021車牌識別相機技術發展現狀
- 歷經27年,人臉識別技術如何發展至識別精度達99.5%以上
- ios企業簽名過期:iPhone時代,面部識別技術難以禁止iOSiPhone
- 語音識別技術與政務資訊系統結合
- OCR識別技術—財務報表識別(2)
- 舊金山可能成為禁止面部識別技術的第一個美國城市
- 自動識別技術的發展及應用領域
- 阿里安全AI識別語義分析技術再獲突破 可快速攔截色情黑話阿里AI
- OCR技術-文字影像識別
- OCR身份證識別技術
- 銀行卡識別技術
- 語音識別模型模型
- 馬志強:語音識別技術研究進展和應用落地分享丨RTC Dev Meetupdev
- 繼行人再識別後,澎思科技車輛再識別(Vehicle ReID)技術重新整理世界紀錄