新任AAAI 2021 大會主席,楊強教授認為的「機器學習前沿問題」有哪些?
2020-01-18 11:52 |
雷鋒網訊息:據南大周志華微博,微眾銀行首席人工智慧官楊強教授擔任國際人工智慧大會AAAI 2021大會主席。楊強教授的此次任職亦是AAAI大會歷史上第二位大會主席,同時屬華人首次。
周志華教授在微博中提到,2020年前AAAI僅設程式委員會主席(Program Committe e chair),沒有大會主席( General chair)。由於近來投稿量劇增,為了使程式委員會主席能把精力集中在稿件學術質量把控上,2020年起才開始設定大會主席。
楊強教授是人工智慧業界的國際專家,在學術界和工業界做出了許多貢獻,尤其近些年為中國人工智慧和資料探勘的發展做出了重要的貢獻。楊強教授是國際人工智慧界“遷移學習”(transfer learning)領域的發起人和帶頭人,同時也是國際“聯邦學習”(Federated Learning)的發起人之一及帶頭人。
他於2013年7月當選為AAAI Fellow,這也使他成為第一位獲此殊榮的華人;之後又於2016年5月當選為AAAI執行委員會委員,是首位AAAI華人執委,2017年8月當選為國際人工智慧聯合會(IJCAI)理事會主席,是第一位擔任IJCAI理事會主席的華人科學家。
由此可見,擔任 AAAI 2021 大會主席,也是順理成章之事。
比較巧合的是,不久之前,雷鋒網 (公眾號:雷鋒網) AI 科技評論恰好聆聽了楊強教授做的一場報告。1月11日,在《清華-中國工程院知識智慧聯合研究中心年會暨認知智慧高峰論壇》上,楊強教授做了《機器學習的幾個前沿問題》的報告,針對人工智慧演算法方面的限制,在機器學習層面對幾個前沿問題做了總結。在報告中,楊教授指出,在機器學習流程中的大多數環節都可以進行自動化設計;面對小資料集的困境,遷移學習是很好的解決方案;在隱私保護越來越重視的今天,聯邦學習可以實現利用多方資料進行訓練,還能夠很好的保護每一方的資料隱私。
AI 科技評論藉此機會,將楊強教授的觀點分享給大家,如下——雷鋒網 AI科技評論做了有刪改的整理,未經楊強教授本人確認。
1、機器學習如何規模化?
雖然人工智慧現在發展的非常火熱,但是人工智慧面臨巨大的挑戰,首先是人才的挑戰,培養一個人工智慧的人才,包括在學校裡的培養,在實踐當中培養,前後加起來需要耗費近十年的時間。那麼人工智慧技術本身是不是可以用來設計人工智慧?在人工智慧的具體應用環節,有的環節是否能夠讓人工智慧來進行?換句話說,AI的演算法是不是可以自動化的進行設計?要解決這個問題需要全面考慮AI演算法,尤其是機器學習演算法整個流程的每個環節,哪個環節適宜用自動化,哪個環節不能用自動化。
機器學習的整個流程包括問題的定義、收集資料、建立特徵工程、模型的訓練和測試、應用,最後再將應用的結果反饋到第一步。所以這個迴圈的過程非常繁雜,有很多的環節需要人工智慧的專家,這也是為什麼一個人工智慧落地的專案非常昂貴的原因。所以哪個步驟可以用自動化來解決?例如從定義問題出發,定義問題不僅僅是從過去知識學習的問題,還能夠有意識的提出新穎的想法,甚至有些想法沒有過去的經驗可參考。
因此我們斷定在定義問題的環節很難引入自動化,但是後面的環節,例如資料的收集、資料聚合,然後形成特徵工程,包括模型的訓練其實都是可以自動化。
在數學模型的概念上,機器學習目的在於使訓練資料和模型之間的差別變得越來越小,整個過程是一個最佳化的過程,也是一個機率的過程。我們在尋找模型的時候,實際上是在配置的引數空間裡面尋找。但是引數的數量,尤其是在深度學習裡面的引數數量非常多,維度可以達到上億。這些引數一般是機器學習專家來調節,那麼如果使用機器,效果是不是更好?
第二個環節,是效能的評估,即評估模型和訓練資料差別,這個環節也可以部分的由機器來解決,雖然這個差別本身的定義還是由人來解決,即由數學家來定義一個模型和訓練資料之間到底有多大的差別。所以,最近的一些分析,人工智慧的基礎是不是應該是數學,就體現在:數學家對距離的定義,即各種各樣的在不同的空間,轉化空間之間的距離的定義。那麼如何高效的求解,在這個空間裡面找到最佳的配置是一個最佳化的問題,所以總結起來為:資料的預處理、特徵處理和模型訓練。這幾個方面都可以形成一些搜尋空間,可以在這樣的空間裡面形成最佳化函式,例如上圖左邊是三個空間,那麼在這三個空間就包括在右邊的那個效能的空間裡面。
自動化的特徵工程已經有非常好的平臺,例如第四正規化公司推出了AutoCross平臺,他會把不同維度的特徵自動的組合篩選,最後推出最最佳化的組合。同時現在比較困難的是在自動化機器學習裡如何找到一個最優的網路結構,這也是拓撲空間的搜尋問題。
上圖的右上角展現的是一個深度學習的拓撲結構,也即從一個神經元到另外一個神經元之間的連線,這種連線千變萬化,而且影響是巨大。那麼如何找到一個最佳的拓撲結構?這是比較難的問題,這個問題現在也在嘗試自動化的方式解決,具體來說是引用了強化學習的概念,如上圖左側所示。首先在深度學習的過程中,右邊展示的是如何不斷地尋找一個更好的配值,即網路拓撲空間的一個配值引數,然後再返回到設計,由此得到反饋。這就像AlphaGo下棋一樣,不同的是把棋盤定義成網路的連線。
2、AI資料不夠怎麼辦?
現有深度學習的各種各樣的演算法,都有一個重要的假設:存在足夠的資料。如果資料不夠,可以用遷移學習來解決。
具體方法是:先看上圖紅色模型,假設我們要訓練的模型是上圖這種目標模型,需要很多的資料。如果假設資料有限,就需要在上圖左側尋找藍色領域,藍色區域的特點為:具有大量的資料、有非常可靠的模型、模型效果非常好。那麼遷移學習是:從上圖藍色成熟的模型遷移到紅色領域。這類似於人類的類比學習,舉一反三。
結果是:如果原資料量非常巨大,把它遷移到一個小資料,效果會很好。而且當原資料的資料數量和資料質量不斷提高的時候,遷移學習的效果也是不斷提高。那麼就可以把其落地到一個深度學習的遷移學習上。在上圖中紅色可以遷移到藍色,紅色已經有一個從左到右的流程,從左邊是輸入,右邊是輸出,已經可以達到很好的分類。
但是和領域特別相關,特別具體的部分,則存在於深度模型的上端,也就是在右邊輸出的那一部分,那部分儘量的讓它不要參與遷移。這便涉及到遷移策略,類似於退火模型。隨著時間,我們把這個遷移的重點逐漸推向底層,那麼這樣就使得下面的這個藍色的模型的遷移效果變得越來越好,
這種遷移方式現在也在業界大量的實施,例如汽車金融的風險控制上,大額的汽車貸款往往是很少的,那麼就需要遷移學習的解決方案,具體做法是是透過小額貸款,大量資料,透過在兩個資料之間遷移得到很好的效果。
例如城市計算,假設在一個城市已經獲得了很好的交通出行的預測模型,那麼可以把它遷移到一個新的城市,那麼在這個新的城市不用收集很多的資料,就可以獲得很好的結果。上面提到的自動化的遷移學習,就是用機器學習來學習遷移學習的策略。策略的要點是:對原領域的選擇,對遷移學習演算法的選擇。那麼在右邊的最佳化空間裡面再找最佳的最佳化解,把這個問題變成數學的問題,然後便可解決。
3、使用者隱私怎麼保護?
越來越多的聲音告訴我們,在做人工智慧的時候也要做有道德的人工智慧。首先一定要保護人的利益,人的利益最大體現就是隱私。大資料一方面可以提高效率,另一方面會涉及到很多人的隱私。現在各種法律法規也頻繁出現,例如歐洲的GDPR的保護法,中國也有相應非常嚴格的個人隱私保護法,並且遍佈在遊戲、金融、網際網路各個方面。過去的情況是:不同的機構把資料聚合到一個大資料公司,同時發揮大資料公司的力量,從而有足夠的樣本和維度;缺點是會暴露隱私。
現在有沒有別的辦法把模型高質量的建立起來呢?聯邦學習(Federated learning)是一種新的做法。意思是:假設有兩個資料擁有方,A方和B方,A方是上面的矩陣,B方是下面的這個矩陣,他們之間可能有資料上的重疊。現在的目的是讓A方看不到B方,B方也看不到A方,同時要建立一個共有的模型,這個模型把兩方的資料都用上。舉例來說:假設一個農夫在養一隻羊,他需要把各地的草收集到農莊來餵羊,類似於把資料聚合到中心伺服器。但是假設草不能移動到外地,現在能做的是領著羊到各地吃草。也就是讓模型先到A方來加以訓練,再把模型帶到B方加以訓練,幾次之後,模型就壯大了,而資料不用流出本地,這就是聯邦學習的思想。
聯邦學習需要很多計算機領域的跨領域的知識,例如多方計算、隱私加密、加密技術、數學、分散式的機器學習、分散式計算。具體怎麼做呢?例如要在兩個領域之間做遷移學習模型,從A遷移到B,不讓A看到B的資料的同時不讓B看到A的資料。這可以以透過邏輯迴歸的辦法,把資料的引數、權重等等進行加密,然後把加密的包給運到B,然後加密包會參與到B端的模型訓練,然後再把模型加密運到A,如此迴圈往復多次之,模型也成熟了。上述過程有兩點:第一沒有洩露任何一方面的資料,第二個達到的效果和用兩邊資料之和訓練出來的是一樣的。
電商和影片裡大量使用的推薦系統會產生大量的資料,不同的推薦方擁有的資料不同,為了保護隱私,不能粗暴的把所有的手機點選產生的資料上傳,所以要採用聯邦學習的做法。具體做法如下:
首先認識到資料有兩個部分,一部分是描述使用者,就是上圖右側U1~UN。另一部分是對產品的描述,用線性代數里面的矩陣描述。對矩陣分解以後,然後認識到雖然有不同的使用者,但是產品本身矩陣是共有的,這個矩陣可以用聯邦邦學習來學習。具體學習過程是:
每一部分在迭代的過程中,都在貢獻自己學到的那一部分的特徵值,然後把它傳到伺服器上,在這裡面要特別關注的是上圖右邊紅色加密步驟:在上傳和下傳時用模組加密,同時包裝產品矩陣的引數包,使每一方都相互看不到彼此的資料,同時模型不斷壯大。
同時可以把此過程遷移學習化,即兩個資料方的使用者和引數的維度都重疊很少的情況下,可以退一步把其對映到一個子空間來進行學習,如此便可得到很魯棒的學習效果。在具體的電影推薦資料集實踐結果如上圖所示,右邊代表錯誤率,錯誤率隨著訓練的次數急劇的下降。
同時在新聞推薦方面,在財新的新聞推薦中使用的就是聯邦學習和遷移學習的推薦引擎。如今此項技術已經開源,並放在了Linux Foundation上,而且最近已經有所突破。
4、AI如何做到反欺詐?
金融機構AI的落地應用特別關心的一個議題是如何做到反欺詐。人工智慧的發展有一種技術:Deepfake,可以來模擬一個完全虛擬的人,虛擬和真實的之間不僅人看不出,現在很多人工智慧演算法也不能區分。
當前AI造假主要集中於以下幾點:第一個是對資料的造假;第二是對模型的造假;第三是對結果的造假。針對上面三個方面,研究者們展開了針對性的研究,例如對於訓練的過程,在考慮原本訓練目標的基礎上,同時考慮加入對抗的樣本,來增強模型的魯棒性。不僅要考慮一個模型,而且我們要考慮多個模型,從不同的角度來對樣本進行分類。假設壞人用了兩個模型,我們要用四個模型,假設壞人也學會用四個模型,我們就要用八個模型。
5、總結
最後總結一下,人工智慧的成功方面在於:第一能把一個環節給自動化,例如剛開始講的自動化機器學習。第二分散式的大資料,即怎樣能夠在保護隱私的前提下,讓不同的資料擁有方合作。第三則是高效能運算能力的提升,這一點我沒有太多研究,清華在這方面做了非常多的研究,我就不再贅述。謝謝大家!
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69946223/viewspace-2673911/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 大資料資訊保安問題有哪些大資料
- 有關Laravel Passport認證的問題LaravelPassport
- 人工智慧學會主席:中國人工智慧研究存在問題人工智慧
- 楊強教授漫談《西部世界》、生成式對抗網路及遷移學習遷移學習
- 《社會媒體挖掘》作者劉歡教授訪談問題有獎徵集(圖靈訪談)圖靈
- 【知識分享】大資料安全問題有哪些型別大資料型別
- 解決機器學習問題有通法機器學習
- 工控機的常見問題有哪些
- 為什麼會有kafka訊息系統?小問題藏著大細節!Kafka
- 機器學習教材中的 7 大經典問題機器學習
- 機器之心專訪楊強教授:聯邦遷移學習與金融領域的AI落地遷移學習AI
- 演講實錄丨CAAI名譽副理事長楊強教授:人工智慧的金融實踐AI人工智慧
- 面試時,你會問面試官哪些問題?面試
- 網頁抓取常見的問題有哪些?網頁
- 常見的專案管理問題有哪些?專案管理
- 美國證券交易委員會主席加入有關加密貨幣問題的“激烈”辯論加密
- 機器學習面試題,更有大廠內推機會機器學習面試題
- NeurIPS 2021 | 一文洞悉因果機器學習前沿進展機器學習
- 大資料治理會遇到哪些難題大資料
- 北京郵電大學教授楊義先:大資料背景下的資訊保安風險及防禦大資料
- CE認證有哪些指令
- 開發者在處理大資料問題時,有哪些關鍵點?大資料
- 網站沒有安裝SSL證書將會面臨哪些問題?網站
- CRM系統實施中的問題有哪些?
- 前端面試常見問題有哪些?前端面試
- 從利用認知 API 到構建出自定義的機器學習模型,中間有哪些坑?API機器學習模型
- CRM系統的優點有哪些?能夠處理哪些問題?
- 《特斯拉》作者卡爾森教授訪談問題有獎徵集(圖靈訪談)圖靈
- 瓴犀強大SRM系統功能模組,可以為企業解決哪些問題
- 認知框架Cynefin有哪些限制?框架
- 2018年機器學習和人工智慧的主要發展有哪些?2019年會有哪些趨勢?機器學習人工智慧
- 機器學習中,有哪些特徵選擇的工程方法?機器學習特徵
- 專案管理中的關鍵問題有哪些「上篇」專案管理
- 專案管理中的關鍵問題有哪些「下篇」專案管理
- AI與機器學習:探索智慧未來的前沿AI機器學習
- 安搭Share:Apple Silicon會有多強大?APP
- 搜尋和其他機器學習問題有什麼不同?機器學習
- AAAI 2021 | 投票的平滑複雜度AI複雜度