機器學習與隱私保護,究竟路在何方?

AIBigbull2050發表於2019-12-16


機器學習與隱私保護,究竟路在何方?

水調歌頭·AI幾時有

——張忠寶

AI幾時有,演算法大無邊。不知智慧未來,爆發在何年。我欲機器學習,又恐資訊融合,保護著實難。資料萬萬千,何處無風險?

搞廣度,用深度,加上GAN。今日論道,如何便利又安全?既要智慧服務,又要隱私保護,此事古難全。但願此會後,二者可得兼。

機器學習與隱私保護,究竟路在何方?

【智慧時代與隱私保護,是左右互搏還是相輔相成】

當今,在大資料、人工智慧的時代下,使用者在獲得智慧服務帶來便利的同時,也面臨著極大的隱私洩露風險。使用者的資訊越全面,畫像越完整,使用者的隱私所受到的威脅就越大。使用者在各個應用領域留下的印記,融合在一起可能就能精準定位一個人的隱私資訊。使用者作為資料的產生者,無法獲知自己的資料被作何用途——被商用、被販賣、被竊取等。

那麼,你更看重機器學習帶來的便利還是隱私資料帶來的威脅呢?

2019年11月29日,初雪的北京,AI Time走進北京郵電大學,本次活動由北京郵電大學張忠寶副教授和AI Time的何芸老師主持,特別邀請到了清華大學計算機系唐傑教授,中科院計算所研究員沈華偉,北京郵電大學程祥副教授和中國計算機學會中文資訊科技專委委員李磊博士。來自學術界與工業界的四位大咖就大家廣泛 關注的“智慧與隱私”的相關問題,圍坐、論道“機器學習與隱私保護”!

機器學習與隱私保護,究竟路在何方?

主持人 張忠寶 副教授

“AI TIME希望給大家營造一個非常輕鬆的環境,共同探討一些科學本質的問題。”正如唐傑教授所講。

機器學習與隱私保護,究竟路在何方?

一、機器學習的能與不能

人工智慧的發展如火如荼,作為其中最重要的方法之一,機器學習日益受到 關注。如果把人工智慧比喻成一個小孩的大腦,機器學習則是指教這個小孩如何識字、認圖和走路的過程。機器學習有著各種各類、豐富多彩的應用,和衣食住行密切相關,為使用者提供更好的服務。四位講者首先簡短地對機器學習現狀進行了解讀。

機器學習與隱私保護,究竟路在何方?

李 磊 博士

李磊認為,機器學習應用十分廣泛,在其所研究的內容理解和內容生成的方向,機器學習已經發揮巨大的作用。隨著Bert、XLnet等預訓練模型的發展,機器學習在工業界已經不需要很高的門檻,學術界所研究出的模型可以很快應用到工業界的問題中。

機器學習與隱私保護,究竟路在何方?

唐 傑 教授

唐傑回顧了機器學習的發展歷程,指出近來這一次人工智慧浪潮起源自於機器學習演算法在實際系統的大量應用,其主要的特點是平民化、平臺化和高精度化。原來只能在學術界,或者大企業才能做的東西,現在很容易便能上手。

機器學習與隱私保護,究竟路在何方?

沈華偉 研究員

沈華偉表述了自己對於人工智慧邊界的觀點。他認為機器學習是人工智慧的一部分,其邊界是圖靈機模型下的計算智慧。如果某個問題不可計算或計算複雜性高,也就無法或難以通過機器學習方式來解決。

機器學習與隱私保護,究竟路在何方?

程 祥 副教授

程祥則認為,機器學習滲透到生活的方方面面,但是不能解決涉及到創造力的問題(例如,如何寫論文等)

多源異構環境下如何進行有效學習

我們常聽到我們處於一個大資料時代。事實上,大資料並不是指所有資料都很大,更多的情況是,我們擁有許多不同來源的(小)資料,它們之間相互有或多或少地聯絡。如果能夠將這些不同的資料來源整合在一起,那麼我們將挖掘出更多有價值的資訊。

針對這個問題,唐傑認為多源異構在工業界很有必要,但從理論研究層面上看,它更像一個工程問題。對於多源異構,如何從科學的角度上給出一個準確、形式化的定義非常重要。當然這方面在國際上相關的研究還是非常多的。

李磊贊同唐傑對於多源的觀點,但是對於異構存在不同的見解。他認為異構未來有發展的必要和空間。把異構、多模態的資訊放在一起,對於資料探勘非常有幫助。

沈華偉同樣贊成多源異構的提法,現在面臨的現實是需求在前,學術在後。如果對多源異構有很強的需求,學術肯定跟上。

程祥則認為多源異構均存在研究的必要性,並提出多源首先面對的問題是研究資料整合,舉出了谷歌的聯邦學習的概念解釋了多源機器學習的作用。同時,異構資料能夠存在一個資訊的互補,一旦資訊互補,資訊更加全面,在同一個語義空間下是有用的。還有一種可能,一種資料樣本比較少,另一種型別的資料樣本比較多,也有必要把它做異構上的語義統一。

機器學習與隱私保護,究竟路在何方?

嘉賓思辨不斷……

機器學習的未來方向

對於機器學習的未來,幾位嘉賓進行了不同的展望:

唐傑認為,推理會成為未來的AI熱潮。人工智慧發展到目前可以簡單歸納為三個階段:第一個階段是讓計算機能夠描述和求解問題,本質上是讓計算機能夠描述人類的問題,第二個階段是專家系統,包括構建知識庫和基於機器學習的問題分類和求解,第三個階段是深度學習快速發展解決的識別和感知問題。未來人工智慧發展可能的兩個重要方向是讓機器實現推理和自學習。推理會引發下一波研究熱潮。

機器學習與隱私保護,究竟路在何方?

沈華偉與唐傑一致認為Bert等預訓練模型的大量使用是機器學習的另一個趨勢。預訓練可以在超大規模的資料上預先無監督的對模型進行訓練,後續針對特定任務,可以只需要在預訓練模型上通特定任務的資料簡單的finetune就能夠構建面向該任務學習模型。預訓練在促進工業界蓬勃發展的同時,也對學術界產生了較大的衝擊,因為一般的學術實驗室很難有足夠的計算能力和儲存能力做出超大規模的預訓練模型。

機器學習與隱私保護,究竟路在何方?

關於知識圖譜,其本質是概念和概念關係,以及概念和關係的例項。唐傑提到預訓練(pre-train)給了我們一個新的思路,也許在pre-train之後,可以通過資料的語義表示和語義推理實現知識圖譜的構建和推理,這從另一觀點來說,一個問題是未來是否還需要知識圖譜?當然這只是一個構想。

對於知識圖譜未來的發展,沈華偉研究員表示知識圖譜發展的方向是知識自動化,當發展到知識自動化的階段後,知識圖譜可能就會以另一種形式存在,認為將來的方向是認知以及人與機器的對抗與互相學習。對於這個方向,程祥認為知識圖譜具有可解釋性,而可解釋的機器學習是最近的一個發展趨勢,但是機器是否需要這種可解釋性呢?目前為止還沒有明確答案。學術界應該更 關注於一些基礎研究,解決一些根本性問題,而不是在應用層面上和工業界競爭。

機器學習與隱私保護,究竟路在何方?

然而,李磊卻認為pre-train並不是未來的主要發展方向,並從AI要解決的最基本的問題方面進行了解釋。AI需要在某種框架上計算、推理、學習、遷移,甚至認知。上述框架存在兩種。第一種是概率圖框架。它認為世界上的所有東西都有不確定性,都可以用概率分佈去表達。在該框架上,所有的問題都可以用概率推理的方法予以解決。第二種框架是深度學習的框架。它的核心思想在於所有的知識都應該表示成一個向量,而所有的向量組成一個向量空間。在該空間可以進行矩陣運算,通過非線性的方法推理得出結果。上述過程是一個黑盒,並不要求做到可解釋。

回到pre-train上來看,pre-train的價值在於將一個模型對映到向量空間中後,在這個空間上面得到的資訊可以很容易地應用到同一類的幾乎所有的問題上。但是如果說它就是未來的方向,該觀點未免過於武斷,可能也不是人們追求的最終智慧的方式。

針對AI的未來發展方向,李磊提出了自己的兩個觀點。第一個方向是邏輯表示和深度學習的結合,歷史上就有概率程式設計的例子,將概率圖和邏輯表示相結合來共享兩者的優點。第二個方向是將概率圖模型和深度學習模型相結合,既能在實際的問題上取得較好的效果,又能夠通過概率的依賴關係去解釋其中推演的過程。

針對工業界應用機器學習瓶頸的問題,李磊認為工業界的機器學習最重要的是效能和準確度,同時還要考慮經濟成本。目前的瓶頸在於:(1)有些明確定義的任務在應用到實際工業產品中會出現很多問題;(2)在計算效能方面,使用者往往無法接受較高的時延;(3)能耗的問題。工業界希望任務做得準確的同時儘量降低耗能,也是一個瓶頸的問題。

二、隱私保護

當生活中的多源資料交融在一起的時候,使用者的隱私暴露就會更多。使用者的資訊越全面,隱私受到威脅越大。這個時候怎麼辦?

智慧時代,你的隱私如何得到保護?

唐傑提到在技術發展的初期階段,可能可以放鬆對隱私保護的要求,加大力度推進AI。近年來,隨著技術的快速發展,隱私保護日益受到 關注。對個人隱私保護至關重要。但是目前大家的 關注度還不夠。在隱私保護、資料共享方面,企業方面需要做到以下兩點。第一,堅決不要做惡;第二,資料不能隨意交換。有些場景下,如果需要做某種資料分享,聯邦學習或許是一個解決之道,這也是未來機器學習和人工智慧發展的一個可能趨勢。

針對這個話題,沈華偉總結了三點:一是隱私保護需要一個過程;二是隱私保護的尺度需要技術和規則的磨合,不是一成不變;三是隱私保護一定程度上依賴於AI技術,AI技術發展到一定程度,會以更好的方式為大家提供服務,不覺得你的隱私被使用了。AI和隱私保護技術之間需要一個平衡,法律和技術都可以使這個平衡過程逐漸向一個好的去向發展。

從工業界角度講,李磊則認為,對於負責任的公司來講,使用者隱私永遠是第一重要的,可以通過法律法規,還有技術來保護。至於在資料層面使用什麼樣的技術進行保護,隨著機器學習技術的不斷更新,隱私保護技術也應該不斷更新。

程祥則認為從資料來源頭上保護隱私之後,深度學習、機器學習還需不需要隱私保護?從源頭來講,從資料資訊的角度,對資料資訊加了隱私保護,看上去就不再需要機器學習和隱私保護了。還有一些場景,例如銀行或者公安機關、醫院,如果把所學模型的引數釋出出去,可以反推出樣本當中的敏感資訊。如果是可信的資料收集者,收集的是真實資訊,對於釋出出來的學習模型或者是統計資訊,也需要做一些保護,否則可以通過所學習到的模型或者統計資訊,推斷出樣本當中的敏感資訊。

那麼,法律優先還是技術優先?

關於資料與隱私,但凡是法律禁止的,我們都不應該去做!

你更看重機器學習帶來的便利,還是隱私資料帶來的威脅?

現場觀眾投票結果:

機器學習與隱私保護,究竟路在何方?

看看四位嘉賓都是什麼觀點:

李磊認為,對於任何負責任的公司來講,使用者隱私永遠是第一重要的,可以通過法律法規,也可以通過技術來保護,使用者隱私保護技術需要不斷更新;

唐傑支援在當下機器學習更多帶來便利;

沈華偉則擔心的是人們對於隱私洩露和機器學習便利的邊界存在認知偏差,導致很多人不瞭解或不充分了解隱私洩露的危險程度;

程祥也比較擔心隱私可能所帶來的威脅。

三、互動與思辨

機器學習與隱私保護,究竟路在何方?

現場觀眾提問

Q1:隱私的定義到底是什麼?

沈華偉說,隱私本身是我們每個人的一種權利,包括知情權和受益權等。如果授權別人使用自己的某些資料,那麼這些資料就不叫隱私了。但是知情權對於每人都不同,在資料的獲取中每一步都加上知情權,就不存在隱私問題,只是很多人在不知情的情況下,被別人拿去了自己的資料。

機器學習與隱私保護,究竟路在何方?

現場觀眾提問

Q2:想獲得更好的使用者體驗,但又不想把資料給你,如何解決?

程祥認為,隱私的定義與場景相關。例如,我們在做一個調查:你有沒有某一類遺傳病?這項調查非常敏感,需要保護上傳資訊的隱私。另外一個場景:我出現在某一個視訊當中,或者一個照片當中,我不希望我的臉出現。這些場景的隱私保護需求不一樣,隱私的定義要結合具體場景。

第二個是個性化的問題。可不可以使用使用者的資料,有些人覺得無所謂,有些人卻非常在意。隱私保護主要的研究方向是,如何在隱私保護的約束下,做好機器學習和資料探勘,儘量不影響機器學習的準確率。例如,在釋出資料的過程中,需要不能反推出樣本中的資訊,以保護使用者的隱私。該問題可以利用差分隱私技術予以解決。

四、路在何方

機器學習與隱私保護究竟路在何方?經過2個多小時的思辨與互動,得到以下結論:

機器學習應用在工業界中的瓶頸在於效能和能耗,而學術界應該比工業界看的更遠。例如對於多源機器學習的形式化/數學定義、概率表示與概率程式設計、邏輯和深度學習的結合等。

目前處在人工智慧的第三階段,下一波的研究浪潮可能會是推理;Pre-train在文字和影象領域發展迅猛,他可能是一個實現推理的方法;也可能仍然需要超大規模的知識圖譜。知識圖譜最終也許走向知識自動化,一旦走到這個地步,它可能以另外一種形式存在。

只發展AI,不談隱私,或者只顧隱私,不發展AI,是兩個極端。兩者需要磨合才能做到相輔相成,共同發展。隱私保護技術需要全新的發展,傳統的方法如:差分隱私、k-anonymity法、基於Dimensionality-reduction方法、聯邦學習以及資料加密的方法。這些方法可能都還不足以解決目前的隱私安全隱患問題。因此,需要技術和隱私保護公共政策的共同發展。

在未來階段,我們期待讓機器能夠真正具有認知能力,能夠自主地解決問題,或者說具備如同科幻電影中那樣自主思考的能力。雖然顯得十分遙遠,但隨著科技的爆發,誰能確定現在的科幻是不是未來平淡無奇的技術?在未來,資料融合用於提供更智慧化的服務是不可阻擋的趨勢,但是不管是在法律層面還有技術層面,我們都應該給予更高的 關注度來加強公眾的隱私保護意識。

機器學習與隱私保護並不是一場零和博弈。近年來提出的差分隱私和聯邦學習技術為在保護資料貢獻者部分隱私的條件下實現有效的機器學習提供了可能的思路。人們在未來需要去探索的,正是機器學習與隱私保護中的那個平衡的度,那個能讓人們既能享受到機器學習帶來的便利,又能確保自己所認為的個人隱私不會被洩露出去的平衡點。如何發現這個度?如何去界定這個度?我們期待未來二者的發展能帶給我們答案。

四位嘉賓與現場觀眾在意猶未盡中結束,留給大家的是對機器學習與隱私保護未來更多的思考!

機器學習與隱私保護,究竟路在何方?

如夢令·AI TIME

——張忠寶

北郵學發下午,大家一見如故。

盡情暢所言,碰撞火花無數。

頓悟、頓悟,下次AI TIME!

整理|郭聰穎、危倩、刁夢婷、朱國楨、尹子長、高帥、任付鑫、田雨晴

校對|張忠寶、何芸

稽核|唐傑、沈華偉、程祥、李磊



http://blog.itpub.net/69946223/viewspace-2668760/



來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/29829936/viewspace-2669866/,如需轉載,請註明出處,否則將追究法律責任。

相關文章