比男朋友更會聊天的機器人指日可待?谷歌AI釋出新款Chatbot

大資料文摘發表於2020-02-05

比男朋友更會聊天的機器人指日可待?谷歌AI釋出新款Chatbot

本週最佳學術研究

Google AI Meena:可以聊天聊地聊一切的機器人

Google Research Brain Team推出了一款基於AI的聊天機器人,名叫Meena。與此前最新的聊天機器人相比,它可以進行更合理、更具體的對話。

Meena有26億個引數,並接受了341 GB文字的訓練,這些文字從公共領域的社交媒體對話中被篩選出來。與現有最新的生成模型OpenAI GPT-2相比,Meena具有1.7倍的模型容量,並接受了8.5倍的資料進行訓練。為了改進效能,研究人員應用了他們針對開放域聊天機器人提出的一種新的人類評估指標,稱為“敏感度和特異性平均值(SSA)”,它捕獲了人類對話中基礎卻重要的屬性。
比男朋友更會聊天的機器人指日可待?谷歌AI釋出新款Chatbot
長期以來,研究人員一直在尋找一種自動評估指標,該指標能夠與更準確的人工評估相關聯、從而更快地開發對話模型,但這一直是充滿挑戰的。出乎意料的是,他們在訓練Meena模型時發現了一種可以用於任何神經seq2seq模型的自動指標——困惑值,該值與人類評估(例如SSA值)具有很強的相關性。

Meena的困惑值為10.2,轉換成SSA值就是72%.與其他聊天機器人獲得的SSA值相比,SSA 值72%與普通人類達到的SSA值 86%相差不遠。完整版Meena具有過濾機制和可調諧解碼功能,可將SSA值進一步提高到79%。

有了如此引人入勝的結果,像人與人之間對話那樣與現代機器人對話似乎離我們越來越近了。Meena無疑是一項惹人注目的研究成果,它可能帶來人機互動中許多有趣且強大的應用。

原文:

https://arxiv.org/abs/2001.09977

資料科學的團隊協作模式用於資料流批量分析的Stream-learn的Python包

弗羅茨瓦夫科技大學的研究人員介紹了名為Stream-learn的Python包,用以進行漂移和不平衡的資料流分析。該軟體包與Scikit-learn相容,其主要元件是一個流生成器,允許合成資料流的生成。該合成資料流可以在其迴圈或非迴圈版本中結合三種主要的概念漂移型別(即突然漂移、漸進漂移和增量漂移)中的每一個。
比男朋友更會聊天的機器人指日可待?谷歌AI釋出新款Chatbot
Python包允許按照既定的評估方法(Test-Then-Train和Prequential)進行實驗。此外,研究人員已經實現了適用於資料流分類的估計器,包括簡單分類器、最新的基於塊的分類器和線上分類器的集合。為了提高計算效率,該包將其自帶的預測指標實現方式用於不平衡的二進位制分類任務。

Stream-learn Python包是一個方便使用的開源庫,用於困難的資料流分類。它可以根據不同的特徵生成流,這些特徵由各種型別的概念漂移和類不平衡水平組成,其中包括先前類概率中可能出現的漂移。

附加模組允許使用大眾熟知的估算方法實現分類器和分類器集合,從而對資料流進行實驗。它的主要想法是使得使用者即刻熟悉資料流分類任務。該軟體包已經在多篇科學論文的研究過程中得到了測試。對於那些偏好簡單的處理過程、容易的操作方法、並與Scikit-learn機器學習庫整合使用的使用者而言,這是一個理想的工具。

原文:

https://arxiv.org/abs/2001.11077v1

一種衡量品牌重要性和品牌定位的創新型工具

在本文中,研究人員描述了SBS品牌智慧應用程式(SBS BI)的功能,該功能旨在評估品牌重要性並通過文字資料分析提供品牌分析。為了更好地描述SBS BI的功能,他們提供了一個針對2020年美國民主總統初選的案例研究。
比男朋友更會聊天的機器人指日可待?谷歌AI釋出新款Chatbot
研究人員從Event Registry資料庫下載了5萬篇線上文章,其中包括從全球收集的主流新聞和部落格新聞。這些線上新聞文章被轉換為共現單詞網路,並與社交網路分析和文字挖掘中的方法和工具相結合進行分析。

通過全面分析人們(包括新聞記者、評論員、選民等在內)對網上候選人的評論,這項工作中描述的方法在補充傳統的民意調查上展現出了巨大的潛力。本文所提出的方法基於對大量文字資料的自動挖掘,這可以幫助抵消所謂的“民意調查疲勞”(在這種情況下,選民開始避免接聽民意測驗者的電話,從而影響了樣本的代表性)。

本文提議的SBS工具中的元件可以被完全轉換為品牌經理和數字營銷專家可以使用的報告。SBS的預測能力及其三個維度(即流行性、多樣性和連通性)已在包括旅遊管理和政治預測在內的各種環境中得到了證明。

原文:

https://arxiv.org/abs/2001.11479v1

邊緣計算深度學習的融合調查

這是一個以資訊為中心的時代,從個人計算機,智慧手機和雲資料中心伺服器群集,到可穿戴裝置和其他物聯網(IoT)裝置,用於運算和儲存的裝置數量激增。運算裝置的增長激發了人們對邊緣智慧的關注,希望通過邊緣計算促進DL服務的部署。
比男朋友更會聊天的機器人指日可待?谷歌AI釋出新款Chatbot
深度學習可以整合於邊緣計算框架中,從而有助於構建一個動態且自適應的邊緣維護和管理系統。本文介紹了相應的實現方法和支援技術的應用場景,即定製邊緣計算框架中的深度學習訓練和推理。此外, 本文還進一步描述了更加普及和細化的情報所面臨的挑戰和未來趨勢。

隨著邊緣計算能力的提高,邊緣智慧將變得不在罕見。這項工作介紹和討論了邊緣智慧和智慧邊緣的各種方案和基本啟用技術。

通過合併散佈在通訊,網路和深度學習領域中的資訊,此調查可以幫助讀者理解技術之間的聯絡,同時促進有關邊緣智慧與智慧邊緣融合的進一步討論。

原文:

https://arxiv.org/abs/1907.08349v3

表示學習已實現無監督無反向傳播CNN

這項新研究提出了一種無監督,無反向傳播的學習演算法。在沒有明確定義的損失函式的情況下,該演算法使用兩個學習規則,逐層更新權重,從而減少了標量領結問題。研究人員認為,這是有史以來,第一個將CNN,SOM和Hebbian Learning原理結合到單個深度學習模型中的方法。
比男朋友更會聊天的機器人指日可待?谷歌AI釋出新款Chatbot
主要貢獻:
  • 用於訓練CSNN模型,該演算法使得研究人員可以獲得與很多無監督訓練模型相當的效能;

  • 通過呈現兩種型別的權重來掩蓋輸入和神經元活動,從而克服SOM在影像補丁上訓練的問題;

  • 建議使用多頭版本以進一步提高效能。

這項工作介紹了CSNN的模組化構建基塊,可以在無反向傳播的情況下以無監督的方式實現表示學習。

通過結合CNN,SOM和Hebbian掩碼學習的CSNN模組,用於學習無監督特徵層次結構的新的替代方法一直在被探索中。標量領結問題和目標函式不匹配都可以一起解決,並提出引出了有趣的未來研究方向。

閱讀更多:

https://arxiv.org/abs/2001.10388v1

其他爆款論文

Google AI釋出了蒼蠅大腦中神經元連線的超詳細地圖,同時釋出了用於視覺化分析的工具套件:

https://ai.googleblog.com/2020/01/releasing-drosophila-hemibrain.html

想要追蹤多個物件?你可以使用這個操作簡便的基於雲的應用程式:

https://arxiv.org/abs/2001.10072v1

為新聞報導創造代表性的頭條新聞而奮鬥:

https://arxiv.org/abs/2001.09386v2

Deep NRSfM ++,一種可以從2D地標聯合恢復3D形狀和相機姿勢的通用框架:

https://arxiv.org/abs/2001.10090v1

為什麼要用最新的ML分析歷史照片檔案:

https://arxiv.org/abs/1904.09811v3

資料集

航空視訊事件識別的大規模資料集和深度學習基準

https://arxiv.org/abs/2001.11394v1

用於視訊異常檢測的新資料集和評估協議:

https://arxiv.org/abs/1902.05872v3

AI大事件

上海利用面部識別技術幫助抓獲毒犯:

https://artificialintelligence-news.com/2020/01/17/shanghai-uses-facial-recognition-to-help-catch-drug-offenders/

比男朋友更會聊天的機器人指日可待?谷歌AI釋出新款Chatbot
專欄作者介紹

Christopher Dossman是Wonder Technologies的首席資料科學家,在北京生活5年。他是深度學習系統部署方面的專家,在開發新的AI產品方面擁有豐富的經驗。除了卓越的工程經驗,他還教授了1000名學生了解深度學習基礎。LinkedIn:https://www.linkedin.com/in/christopherdossman/

相關文章