創新工場「資料下毒」論文入選NeurIPS 2019,AI安全問題需要引起關注

AIBigbull2050發表於2019-09-06


導語:附問答及創新工場2019年科研進展

創新工場「資料下毒」論文入選NeurIPS 2019,AI安全問題需要引起關注

雷鋒網 AI 科技評論按:9 月 4 日,被譽為機器學習和神經網路領域的頂級會議之一的 NeurIPS 2019 揭曉收錄論文名單,創新工場人工智慧工程院的論文《Learning to Confuse: Generating Training Time Adversarial Data with Auto-Encoder》(深度困惑:一種利用自編碼器生成惡意訓練樣本的方法)被接收在列。這篇論文的三位作者為:馮霽(創新工場南京國際人工智慧研究院執行院長)、蔡其志(創新工場南京國際人工智慧研究院研究員) 、周志華(南京大學人工智慧學院院長)。

這篇論文圍繞現階段人工智慧系統的安全性展開研究,具體而言,文章提出了一種高效生成對抗訓練樣本的方法 DeepConfuse,透過微弱擾動資料庫的方式,徹底破壞對應的學習系統的效能,達到「資料下毒」的目的。這一技術的研究並不單單是為了揭示類似的 AI 入侵或攻擊技術對系統安全的威脅,而是致力於在深入研究相關的入侵或攻擊技術的基礎上,有針對性地制定防範「AI 駭客」的完善方案,對 AI 安全攻防這一前沿研究方向的推動與發展具有積極指導作用。

NeurIPS,全稱神經資訊處理系統大會 (Conference and Workshop on Neural Information Processing Systems),自1987年誕生至今已有 32 年的歷史,一直以來備受學術界和產業界的高度關注。該會議固定在每年的 12 月舉行,由 NIPS 基金會主辦。在中國計算機學會的國際學術會議排名中,NeurIPS 為人工智慧領域的A類會議,同時也是人工智慧領域最富盛名的年度會議之一,會議門票動輒在數分鐘內售磬。

一直以來,NeurIPS 都以重視論文質量著稱,並保持著相對較低的錄取率。今年,NeurIPS 會議的論文投稿量再創造新高,共收到 6743 篇投稿,最終錄取 1428 篇論文,錄取率為 21.2%。

目前這篇論文還不是最終狀態,Camera Ready 將版本在 1 個月後透過 NeurIPS 正式途徑放出。下面我們介紹一下論文的主要內容。

創新工場「資料下毒」論文入選頂會 NeurIPS

近年來,機器學習熱度不斷攀升,並逐漸在不同應用領域解決各式各樣的問題。不過,卻很少有人意識到,其實機器學習本身也很容易受到攻擊,模型並非想象中堅不可摧。

例如,在訓練 (學習階段) 或是預測 (推理階段) 這兩個過程中,機器學習模型就都有可能被對手攻擊,而攻擊的手段也是多種多樣。創新工場 AI 工程院為此專門成立了 AI 安全實驗室,針對人工智慧系統的安全性,進行了深入對評估和研究。

《Learning to Confuse: Generating Training Time Adversarial Data with Auto-Encoder》這篇論文的主要貢獻,就是提出了高效生成對抗訓練資料的最先進方法之一—— DeepConfuse,透過劫持神經網路的訓練過程,教會噪聲生成器為訓練樣本新增一個有界的擾動,使得該訓練樣本訓練得到的機器學習模型在面對測試樣本時的泛化能力盡可能地差,非常巧妙地實現了「資料下毒」。

顧名思義,「資料下毒」即讓訓練資料「中毒」,具體的攻擊策略是透過干擾模型的訓練過程,對其完整性造成影響,進而讓模型的後續預測過程出現偏差。(「資料下毒」與常見的「對抗樣本攻擊」是不同的攻擊手段,存在於不同的威脅場景:前者透過修改訓練資料讓模型「中毒」,後者透過修改待測試的樣本讓模型「受騙」。)

舉例來說,假如一家從事機器人視覺技術開發的公司希望訓練機器人識別現實場景中的器物、人員、車輛等,卻不慎被入侵者利用論文中提及的方法篡改了訓練資料。研發人員在目視檢查訓練資料時,通常不會感知到異常(因為使資料「中毒」的噪音資料在影像層面很難被肉眼識別),訓練過程也一如既往地順利。但這時訓練出來的深度學習模型在泛化能力上會大幅退化,用這樣的模型驅動的機器人在真實場景中會徹底「懵圈」,陷入什麼也認不出的尷尬境地。更有甚者,攻擊者還可以精心調整「下毒」時所用的噪音資料,使得訓練出來的機器人視覺模型「故意認錯」某些東西,比如將障礙認成是通路,或將危險場景標記成安全場景等。

為了達成這一目的,這篇論文設計了一種可以生成對抗噪聲的自編碼器神經網路 DeepConfuse,透過觀察一個假想分類器的訓練過程更新自己的權重,產生「有毒性」的噪聲,從而為「受害的」分類器帶來最低下的泛化效率,而這個過程可以被歸結為一個具有非線性等式約束的非凸最佳化問題。

從實驗資料可以發現,在 MNIST、CIFAR-10 以及縮減版的 IMAGENET 這些不同資料集上,使用「未被下毒」的訓練資料集和「中毒」的訓練資料集所訓練的系統模型在分類精度上存在較大的差異,效果非常可觀。

創新工場「資料下毒」論文入選NeurIPS 2019,AI安全問題需要引起關注

與此同時,從實驗結果來看,該方法生成的對抗噪聲具有通用性,即便是在隨機森林和支援向量機這些非神經網路上也有較好表現。(其中藍色為使用「未被下毒」的訓練資料訓練出的模型在泛化能力上的測試表現,橙色為使用「中毒」訓練資料訓練出的模型的在泛化能力上的測試表現)

創新工場「資料下毒」論文入選NeurIPS 2019,AI安全問題需要引起關注

在 CIFAR 和 IMAGENET 資料集上的表現也具有相似效果,證明該方法所產生的對抗訓練樣本在不同的網路結構上具有很高的遷移能力。

創新工場「資料下毒」論文入選NeurIPS 2019,AI安全問題需要引起關注

此外,論文中提出的方法還能有效擴充套件至針對特定標籤的情形下,即攻擊者希望透過一些預先指定的規則使模型分類錯誤,例如將「貓」錯誤分類成「狗」,讓模型按照攻擊者計劃,定向發生錯誤。

例如,下圖為 MINIST 資料集上,不同場景下測試集上混淆矩陣的表現,分別為乾淨訓練資料集、無特定標籤的訓練資料集、以及有特定標籤的訓練資料集。

創新工場「資料下毒」論文入選NeurIPS 2019,AI安全問題需要引起關注

實驗結果有力證明了,為有特定標籤的訓練資料集做相應設定的有效性,未來有機會透過修改設定以實現更多特定的任務。 

對資料「下毒」技術的研究並不單單是為了揭示類似的 AI 入侵或攻擊技術對系統安全的威脅,更重要的是,只有深入研究相關的入侵或攻擊技術,才能有針對性地制定防範「AI 駭客」的完善方案。隨著 AI 演算法、AI 系統在國計民生相關的領域逐漸得到普及與推廣,科研人員必須透徹地掌握 AI 安全攻防的前沿技術,並有針對性地為自動駕駛、AI 輔助醫療、AI 輔助投資等涉及生命安全、財富安全的領域研發最有效的防護手段。

聯邦學習對AI安全研發提出新的目標

除了安全問題之外,人工智慧應用的資料隱私問題,也是創新工場AI安全實驗室重點關注的議題之一。 近年來,隨著人工智慧技術的高速發展,社會各界對隱私保護及資料安全的需求加強,聯邦學習技術應運而生,並開始越來越多地受到學術界和工業界的關注。

具體而言,聯邦學習系統是一個分散式的具有多個參與者的機器學習框架,每一個聯邦學習的參與者不需要與其餘幾方共享自己的訓練資料,但仍然能利用其餘幾方參與者提供的資訊更好的訓練聯合模型。換言之,各方可以在在不共享資料的情況下,共享資料產生的知識,達到共贏。

創新工場 AI 工程院十分看好聯邦學習技術的巨大應用潛力,今年3月,「資料下毒」論文作者、創新工場南京國際人工智慧研究院執行院長馮霽代表創新工場當選為 IEEE 聯邦學習標準制定委員會副主席,著手推進位制定 AI 協同及大資料安全領域首個國際標準。創新工場也將成為聯邦學習這一技術「立法」的直接參與者。

「資料下毒」論文答疑

9 月 5 日上午,創新工場 AI 工程院組織了一場問答,解答雷鋒網 AI 科技評論等各家媒體提出的關於這篇「資料下毒」論文的問題。創新工場CTO、人工智慧工程院執行院長王詠剛,以及這篇論文第一作者、創新工場南京國際人工智慧研究院執行院長馮霽進行了線上解答。

問:「資料下毒」研究的目的是什麼?

  • 王詠剛:這類似於網路安全工程師研究駭客入侵技術、攻擊技術,只有對攻擊技術有了全面充分的瞭解,才能制定有效的防範措施,開發相應的安全標準、安全工具。

  • 馮霽:目的是對人工智慧系統的安全性做一個技術性評估,假設資料庫被惡意篡改的話,對應的系統會壞成什麼樣。這篇工作的另一個目的,也是希望呼籲引起對該問題的重視。

問:在這項研究中,先假定一個被攻擊的模型,針對假定的模型就可以開始生成對抗性訓練樣本;而且這些生成的樣本對於其他的模型也有明顯的效果。也就是說,假如這個方法被實際使用,我甚至不需要知道別人使用的是什麼樣的模型就有機會對別人造成危害。我這樣理解對嗎?

  • 馮霽:對。下毒的人不需要知道對方用什麼模型,只需要得到資料庫許可權,即可進行破壞。

問:目前還有哪些有效防護AI演算法、AI系統的手段?

  • 王詠剛:目前的 AI 系統攻防處於非常早期的研發階段,與傳統安全領域已經相對成熟的方法論、演算法、工具、平臺等相比,AI 安全攻防還處於探索期。目前的主流攻擊方法,如對抗樣本攻擊,資料下毒攻擊等,雖然已經有一些防範思路,但無論是攻擊技術,還是安全防護技術都在發展中。

  • 馮霽: 目前防護的技術還處於較為初期的情況,類似於網路安全,不存在一個包治百病的「疫苗」,對於人工智慧企業,我們建議需要建立專門的安全團隊,對自家的系統進行全方位的保護。

問:目前有沒有利用這個方法實際去挖掘無人駕駛系統等領域的漏洞(類似科恩實驗室成功攻擊特斯拉系統那樣)?

  • 王詠剛:這個不算很難,其實有不少技術強的研究機構或實驗室都可以做出類似的結果。可以說今天的很多無人駕駛系統使用的 AI 演算法,在設計和實現的時候,是較少考慮安全防護的。另一方面,新的 AI 安全攻擊方法、威脅形式也在不斷湧現出來。黑盒模式在外部偽造交通標誌進行攻擊,白盒模式針對具體模型進行攻擊,入侵模式針對資料進行「下毒」方式的資料汙染,攻擊方法會越來越多。我的感覺是目前業界對 AI 安全的整體認知和重視程度並不足夠,這種情況下,一旦與人身安全或財產安全相關的 AI 系統大量上線執行,大量的安全事件就會暴露出來。我們建議儘早對 AI 安全防護進行透徹研究,儘早投入足夠資源研發 AI 安全防護工具與防護技術。

  • 馮霽: 針對無人車的攻擊是有的,但是目前公佈出來的主要是產生對抗樣本。資料下毒的工作剛推出來 24 小時,尚未見到應用。我們需要提醒這項技術的破壞性很大,請讀者不要做違法犯罪的活動。

問:「資料下毒」給 AI 安全性帶來警醒。目前,AI 技術已經在很多領域得到應用,這種應用是不是已經遠遠超前於 AI 技術安全性的研究?

  • 馮霽:是的,像任何一個新的技術一樣,目前的應用走在安全性前面,我們認為無論是 AI 安全,還是 AI 隱私保護,在未來將會受到比傳統電腦保安更大的重視。

問:目前針對人工智慧系統的安全事件多麼?

  • 王詠剛:最近剛剛出現的利用 AI 模擬語音來詐騙錢財的案件,就是AI安全的相對嚴重的事件。AI 技術必然會被應用於各種核心業務領域,甚至涉及財產或生命安全(如醫療、自動駕駛、金融等),未來隨著 AI 攻擊技術的發展,相關的事件必然越來越多。

  • 馮霽:目前安全事件還不像傳統計算機系統的病毒一樣普遍,但是有理由相信,隨著時間的推移,未來這件將會成為一個獨立的產業,另外,針對安全或資料隱私的法律也會逐步出 臺,例如歐盟的 GDPR 法案。

問:AI安全會對技術的落地與發展產生什麼樣的影響?

  • 馮霽:我認為AI系統的安全性和隱私性保證,是人工智慧發展的必經之路。類似於計算機網路/計算機系統發展初期,當時病毒不多,但是隨著時間的推移,必將催生出一系列的AI安全產業。我們認為,AI安全的威脅,要比目前的計算機病毒嚴重得多。

問:目前國內和國際在AI安全性的研究上的差距有多大,差距體現在哪些方面?

  • 王詠剛:AI 安全性的理論研究層面:國內和國際的差距不大,國內如南京大學周志華團隊,在機器學習魯棒性、安全性的核心理論層面,就有著非常前沿的研究成果。

    AI 安全性的工程應用層面:應該說國內、國際目前都處於非常早期的階段。從使用系統角度將,Google、Facebook 等巨頭在工程、產品和系統裡的AI安全技術使用上,有一定先發優勢,比如 Google 已經在好幾個具體的客戶端、服務端產品中應用了聯邦學習等保護資料安全的技術。但是隨著國內對 AI 安全的逐漸重視,相信國內的應用級研發也會慢慢跟上來。

  • 馮霽:目前 AI 安全性的研究十分新穎,大家幾乎在同一個起跑線上,具體體現是最前沿技術的研製,中美平分秋色。我們認為安全無小事,國家需要重視。

問:對於近日備受爭議的 ZAO,您怎麼看?創新工場認為人工智慧安全方面的邊界是哪裡呢

  • 王詠剛:不談具體 ZAO 的問題。但本質上這一類問題是在發展和利用 AI 技術的時候,如何保護智慧財產權、使用者隱私的綜合問題。今天的 AI 技術發展必須考慮法律和道德合規性的問題,不能觸犯使用者底線,就像在歐洲做 AI 就必須符合 GDPR 規範一樣。AI 安全攻防相關的技術可以為法律和道德合規性提供足夠的技術保障,但這僅僅是技術層面的事情。人工智慧安全,事實上必須由技術手段、法律手段、道德手段、行業規範手段等一起來維護。

  • 馮霽:對於使用者隱私資料造成的安全威脅,在人工智慧時代將會被越來越重視,產生的威脅也會越來越多,ZAO 就是一例。聯邦學習技術其實就是為解決此類問題提出的解決之道。類似於安全領域的「白帽子」,我們呼籲更多的 AI 安全「白帽子」的出現,共同對人工智慧系統的安全漏洞進行評估和分析。

問:人工智慧領域是否有可能建立一些行業的安全標準?

  • 王詠剛:是的,人工智慧領域不但有可能,也完全應該建立一系列行業安全標準,來規範人工智慧技術的使用。這些安全標準可能包括:AI 系統魯棒性和安全性的評估標準,AI 系統交換資料時的資料安全標準,AI系統涉及使用者隱私資料時的隱私保護標準,AI 系統涉及人身安全時的強制性行業標準等等。創新工場AI工程院目前參加的 IEEE 聯邦學習標準委員會,就是 AI 資料和隱私安全的標準之一。

  • 馮霽:目前正在做,包括針對使用者資料隱私保護的技術聯邦學習,是 IEEE 推出的第一個人工智慧協同合作方面的國際標準,創新工場正是負責其中的安全評估部分。

創新工場 AI 工程院論文成果斬獲多項國際頂會

創新工場憑藉獨特的 VC+AI(風險投資與AI研發相結合)的架構,致力於扮演前沿科研與AI商業化之間的橋樑角色。創新工場 2019 年廣泛開展科研合作,與其他國際科研機構合作的論文在多項國際頂級會議中嶄露頭角,除上述介紹的「資料下毒」論文入選 NeurlPS 之外,還有 8 篇收錄至五大學術頂會。

1、兩篇論文入選計算機視覺領域國際頂會 ICCV

ICCV,全稱國際計算機視覺大會( IEEE International Conference on Computer  Vision),由IEEE主辦,與計算機視覺模式識別會議(CVPR)和歐洲計算機視覺會議(ECCV)並稱計算機視覺方向的三大頂級會議,在業內具有極高的評價。

今年,創新工場AI工程院與加州大學伯克利分校、清華大學等單位合作的2篇論文收錄其中。

Disentangling Propagation and Generation for Video Prediction

這篇論文的主要工作圍繞一個影片預測的任務展開,即在一個影片中,給定前幾幀的圖片預測接下來的一幀或多幀的圖片。

影片中的動態場景可以被劃分成以下兩種情況:第一種是移動相對平滑的畫面,它們可以透過上一幀的畫面使用比較簡單的預測方式得到;第二種是有遮擋發生,通常難以直接透過外插得到的畫面。此前關於這類影片預測的工作,只能考慮對之前圖片的外插,或是使所有畫素均由生成模型得到。

本文提出了一種組合式的模型來完成該任務,將影片預測任務解耦成運動相關的圖片傳播和運動無關的圖片生成兩個任務,並分別透過光流預測和圖片生成的方法完成這兩個任務,最後提出了一個基於置信度的圖片轉換運算元將這兩個操作融合起來。

創新工場「資料下毒」論文入選NeurIPS 2019,AI安全問題需要引起關注

實驗證明,在動畫場景和真實場景下,論文提出的方法都能產生更加精確的遮擋區域和更加銳利和真實的圖片。

創新工場「資料下毒」論文入選NeurIPS 2019,AI安全問題需要引起關注

創新工場「資料下毒」論文入選NeurIPS 2019,AI安全問題需要引起關注

Joint Monocular 3D Vehicle Detection and Tracking

這篇論文提出了一種全新的線上三維車輛檢測與跟蹤的聯合框架,不僅能隨著時間關聯車輛的檢測結果,同時可以利用單目攝像機獲取的二維移動資訊估計三維的車輛資訊。

創新工場「資料下毒」論文入選NeurIPS 2019,AI安全問題需要引起關注

在此基礎上,論文還提出了基於深度的三維檢測框匹配 方法,並利用三維軌跡預測對遮擋目標進行重識別,該方法能夠利用三維資訊做到更加魯棒的軌跡跟蹤。

創新工場「資料下毒」論文入選NeurIPS 2019,AI安全問題需要引起關注

此外,論文設計了一個基於長短期記憶網路的運動預測模型,它能更加準確地預測長期運動。

基於模擬資料,KITTI和Argoverse資料集的實驗驗證了該方法的魯棒性。同時發現,在Argoverse資料集上,對30m以內的物體,僅使用視覺輸入的方法的效能顯著優於基於鐳射雷達輸入的基線方法。

2、一篇論文入選機器人與自動化領域國際頂會IROS

IROS,全稱國際智慧機器人與系統大會(International Conference on Intelligent Robots and  Systems),是國際機器人與自動化領域的兩大影響最大的學術會議之一。

自機器人技術發展初期的1988年開始,IROS每年舉辦一屆,迄今已經是第30屆。每年,來自世界各個頂尖機器人研究機構的專家和業界人士匯聚在這個盛會,探討和展示機器人行業最前沿的技術。

今年,創新工場AI工程院與加州大學伯克利分校等單位合作的1篇論文收錄其中。

Monocular Plan View Networks for Autonomous Driving

通常情況下,在單目影片上的卷積神經網路方法能夠有效的捕獲圖片的空間資訊,但是卻對深度資訊難以有效利用,這也是一直以來有待業內攻克的難點之一。

本文針對端到端的控制學習問題提出了一個對當前觀察的視角轉換,將其稱之為規劃視角,它把將當前的觀察視角轉化至一個鳥瞰視角。具體的,在自動駕駛的問題下,在第一人稱視角中檢測行人和車輛並將其投影至一個俯瞰視角。

創新工場「資料下毒」論文入選NeurIPS 2019,AI安全問題需要引起關注

本文認為,這種人工設計的表徵能夠提供了一個對環境資訊的抽象,使得神經網路能夠更有效的推斷物體的位置,朝向等資訊。

在GTA 5模擬器上進行的實驗驗證,一個同時使用規劃視角和正面視角作為輸入的神經網路比起純基於正面視角的基線方法碰撞率下降了一個數量級,和之前的基於檢測結果的方法,本文中提出的方法降低了一半的碰撞率。

創新工場「資料下毒」論文入選NeurIPS 2019,AI安全問題需要引起關注

3、三篇論文入選自然語言處理領域國際頂會EMNLP

EMNLP,全稱自然語言處理中的經驗方法會議(Conference on Empirical Methods in Natural  Language Processing),是自然語言處理領域的頂級會議。

今年,創新工場AI工程院與香港科技大學、中科院計算所、清華大學、中國科學院大學等單位合作的3篇論文收錄其中。

Multiplex Word Embeddings for Selectional Preference Acquisition

本論文的主要工作是與香港科技大學聯合完成。

傳統的詞向量模型通常利用靜態向量來表示詞與詞之間共現關係,然而這種模型無法很好地捕捉詞語之間(在不同場景下)的不同關係,例如,這類靜態向量無法有效分辨“食物”應該作為“吃”的主語還是賓語。

為了解決這個問題,文字提出了一種multiplex詞向量模型。在該模型中,對於每個詞而言,其向量包含兩部分,主向量和關係向量,其中主向量代表總體語義,關係向量用於表達這個詞在不同關係上的特徵,每個詞的最終向量由這兩種向量融合得到。

為了有效使用這種多向量表達,文字提出的模型還包含了一個向量壓縮模組,能夠將向量壓縮至原始尺寸的十分之一而不損失效果。

本文提出的模型在多個實驗中均證明了其有效性,尤其是在一些需要句法資訊的場景下超越了當前最優的預訓練模型。

可以說,文字表徵一直是自然語言理解在深度學習時代的重要基礎技術和前沿陣地。近年來預訓練模型的廣泛使用以及其在多數任務上的優良效能證明了其可以更好地表達一段文字在特定上下文中的語義。然而,作為語言表達的基本單元,詞語一直是研究語義和理解的重要基礎,尤其對於很多複雜場景中需要句法和各類關係資訊的支撐,預訓練模型也無法很好地表達這些文字中的詞彙語義資訊。

因此,本文延續了傳統詞向量方面的研究,將關係資訊加入到詞向量建模過程中,得以顯示區分不同場景下的詞的不同表徵,並在一系列任務中證明了其有效性,同時藉助於模型中的壓縮模組可以將詞向量規模縮小至原始尺寸的十分之一,將極大改善使用該詞向量的執行環境對於資源的需求。

What You See is What You Get: Visual Pronoun Coreference Resolution in Dialogues

本論文的主要工作是與香港科技大學、清華大學聯合完成。

在實際語言使用中,將一個代詞連結到其指代的物體需要多種知識的支援。例如,當兩個人談話時,當他們共同看見一個物體,他們可能會直接用代詞(例如“它”)來指代而不會在文字中先行描述。

創新工場「資料下毒」論文入選NeurIPS 2019,AI安全問題需要引起關注

該現象給現有的指代消解模型帶來了巨大的挑戰,為此,本文提出了一個新模型(VisCoref)及一個配套資料集(VisPro),用以研究如何將代詞指代與視覺資訊進行整合。

其中,資料集部分,本文從一個含有視覺資訊支撐的對話資料中隨機挑選了5000個對話,然後邀請眾包平臺上的標註者標註代詞和它們指代的名詞短語之間的關聯關係,並經過一系列的清洗之後,得到了高質量的標註資料;模型部分,為了整合對話中的文字資訊和圖片中的資訊,首先對於文字和圖片進行資訊抽取,並分別獲得對應的向量表達,然後使用這些向量對於抽取的影像資訊進行基於注意力機制的整合,並將得到的結果透過一個全連線神經網路預測基於視覺和文字的分數用於預測指代關係。

創新工場「資料下毒」論文入選NeurIPS 2019,AI安全問題需要引起關注

本文研究表明,加入視覺資訊能夠有效地幫助到對話中的代詞指代消解任務。

事實上,多模態一直是人工智慧各個領域的研究熱點。尤其對於人類溝通場景(對話)而言,這個過程中需要利用和產生的很多訊號都不僅僅只是文字,視覺資訊在其中佔據了重要成分。作為自然語言理解中的一個重要任務,指代消解也對於視覺訊號有極強依賴。

為了研究這一問題,本文首次提出聯合建模視覺訊號和指代消解中的代詞及被指代的名詞,將視覺資訊加入到經典的指代消解任務中,並證明了其有效性。同時,本文還構建了一個帶有視覺訊號的指代消解資料集,為學界和業界提供了一個基準測試物件,以助於將來這方面的研究。

Reading Like HER: Human Reading Inspired Extractive Summarization

本論文的主要工作是與中科院計算所聯合完成,本項研究重新審視了長文件的抽取式摘要問題。

人類透過閱讀進行文字語義的摘要總結大體上可以分為兩個階段:1)透過粗略地閱讀獲取文字的概要資訊,2)進而進行細緻的閱讀選取關鍵句子形成摘要。

創新工場「資料下毒」論文入選NeurIPS 2019,AI安全問題需要引起關注

本文提出一種新的抽取式摘要方法來模擬以上兩個階段,該方法將文件抽取式摘要形式化為一個帶有上下文的多臂老 虎機問題,並採用策略梯度方法來求解。

首先,採用卷積神經網路對段落要點進行編碼以模擬粗略閱讀階段。隨後,利用一種帶有自適應終止機制的決策策略模擬細緻閱讀階段。

創新工場「資料下毒」論文入選NeurIPS 2019,AI安全問題需要引起關注

在CNN和DailyMail資料集上的實驗表明,論文提出的方法不僅在ROUGE-1、2、L等度量上明顯優於當前最好的抽取式摘要方法,並且能夠抽取出具有不同長度的高質量摘要。

一直以來,模擬人的行為習慣執行自然語言處理任務都是NLP和AI學界的努力方向,特別對於像文字摘要這樣對於人類而言也屬於高階和複雜的任務,需要級強地自然語言理解和文字組織能力。

本文在這一方面做了有益的嘗試,將閱讀理解過程拆分成類似人類閱讀的兩階段進行建模,並證明這樣做可以得到更好地抽取式摘要生成效果。

以及,論文《sPortfolio: Stratified Visual Analysis of Stock Portfolios》入選計算機圖形學和視覺化領域國際頂級期刊 IEEE TVCG,本文主要是對於金融市場中的投資組合和多因子模型進行可視分析的研究。論文《Monoxide:  Scale Out Blockchain with Asynchronized Consensus Zones》入選計算機網路頂級學術會議 NSDI,這是國際主流學術界首次認可區塊鏈擴容方案的相關研究,是該會議今年錄取的唯一一篇與區塊鏈相關的論文。

創新工場獨特的「科研助推商業」思路

創新工場「VC+AI」模式的最獨特之處在於,創新工場的 AI 工程院可以透過廣泛的科研合作以及自身的科研團隊,密切跟蹤前沿科研領域裡最有可能轉變為未來商業價值的科研方向。這種「科研助推商業」的思路力圖儘早發現有未來商業價值的學術研究,然後在保護各方智慧財產權和商業利益的前提下積極與相關科研方開展合作,同時由 AI 工程院的產品研發團隊嘗試該項技術在不同商業場景裡可能的產品方向、研發產品原型,並由商務擴充團隊推動產品在真實商業領域的落地測試,繼而可以為創新工場的風險投資團隊帶來早期識別、投資高價值賽道的寶貴機會。

「科研助推商業」並不是簡單地尋找有前景的科研專案,而是將技術跟蹤、人才跟蹤、實驗室合作、智慧財產權合作、技術轉化、原型產品快速迭代、商務擴充、財務投資等多維度的工作整合在一個統一的資源體系內,用市場價值為導向,有計劃地銜接學術科研與商業實踐。

以 AI 為代表的高新技術目前正進入商業落地優先的深入發展期,產業大環境亟需前沿科研技術與實際商業場景的有機結合。創新工場憑藉在風險投資領域積累的豐富經驗,以及在創辦 AI 工程院的過程中積累的技術人才優勢,特別適合扮演科研與商業化之間的橋樑角色。

創新工場於 2016 年 9 月成立創新工場人工智慧工程院,以「科研+工程實驗室」模式,規劃研發方向,組建研發團隊。目前已經設有醫療 AI、機器人、機器學習理論、計算金融、計算機感知等面向前沿科技與應用方向的研發實驗室,還先後設立了創新工場南京國際人工智慧研究院、創新工場大灣區人工智慧研究院,致力於培養人工智慧高階科研與工程人才,研發以機器學習為核心的前沿人工智慧技術,並同各行業領域相結合,為行業場景提供一流的產品和解決方案。

創新工場與國內外著名的科研機構廣泛開展科研合作,例如,今年 3 月 20 日,香港科技大學和創新工場宣佈成立計算機感知與智慧控制聯合實驗室(Computer Perception and Intelligent Control Lab)。此外,創新工場也積極參與國際相關的技術標準制定工作。例如,今年 8 月,第 28 屆國際人工智慧聯合會議(IJCAI)在中國澳門隆重舉辦,期間召開了 IEEE P3652.1(聯邦學習基礎架構與應用)標準工作組第三次會議。IEEE 聯邦學習標準由微眾銀行發起,創新工場等數十家國際和國內科技公司參與,是國際上首個針對人工智慧協同技術框架訂立標準的專案。創新工場的科研團隊深度參與到聯邦學習標準的制定過程中,希望為 AI 技術在真實場景下的安全性、可用性以及保護資料安全、保護使用者隱私貢獻自己的力量。







來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69946223/viewspace-2656221/,如需轉載,請註明出處,否則將追究法律責任。

相關文章