產業安全專家談丨企業如何應用“聯邦學習”打破資料孤島,助力業務創新?

騰訊安全發表於2020-05-07

隨著雲端計算和大資料技術的不斷髮展,以人工智慧為基礎的資料分析與資料探勘讓大資料釋放出巨大價值,已成為企業業務創新、業績增長的重要手段。

然而,企業在現實中的資料利用卻困難重重,在資料價值開發中,企業究竟面臨哪些痛點?企業如何打破困局,充分發揮大資料的潛在價值,助力業務創新?由騰訊安全聯合雲+社群打造的「產業安全專家談」第十七期邀請到騰訊安全大資料創新中心負責人羅松為大家解析企業資料應用的現實路徑。

產業安全專家談丨企業如何應用“聯邦學習”打破資料孤島,助力業務創新?


Q1:產業網際網路時代,資料在業務發展中越來越重要,企業在資料應用中有哪些痛點?

羅松:企業資料應用最大的痛點是資料共享需求與資料隱私之間的矛盾。

隨著科技的發展、業務的創新,很多企業產生了大量資料。但在企業之間,甚至企業內部,資料之間常常彼此割裂,存在明顯的“資料孤島”的現象。不論對大企業還是小企業,為了提升業務質量,提高基於資料的決策能力,從而取得競爭性優勢,就對在內外部進行資料融合產生了較大的需求。但是一個現實的問題是,整個社會對隱私保護越來越關注,監管對使用資料的要求也越來越嚴格。在這種情況下,企業急需有一套比較好的技術和方案,在隱私保護和資料合規的情況下進行內外部的大資料合作,這也是我們推出聯邦學習應用服務的初衷。


Q2:聯邦學習是如何解決企業資料應用困局的?

羅松:傳統的聯合建模需要把資料集中到一起,“可見才可用”,難以滿足資料隱私和合規要求。聯邦學習透過資料加密、分散式機器學習等前沿技術的綜合運用,讓資料在不出私有域的情況下進行聯合建模,資料融合過程中只交換機器學習的中間值,實現了資料和特徵變數的“可用不可見”,有效解決了資料運用與隱私保護、資料合規之間的矛盾。


Q3:聯邦學習為什麼要聯合專業團隊?企業自己做的難點在哪裡?

羅松:聯邦學習的本質是在不同資料生產方之間進行了資料融合以及聯合建模(資料不出各自的資料中心,但是可以實現融合建模的效果)。單憑一方是無法進行聯邦學習的,因為沒有其他的資料來融合。同時聯邦學習的技術要求較高,需要長期且較大的成本研發投入。選擇具有技術和資料實力的專業團隊,能夠更便捷高效地接入聯邦學習,降低成本。


Q4:在具體專案中,企業和騰訊安全是如何合作的?共享了哪些資料特徵?

羅松:聯邦學習建模最大的特點是資料可用不可見,實際上雙方交換的是機器學習的中間值。

目前,在金融領域,騰訊安全已與江蘇銀行達成了首個合作。騰訊安全具有大量的資訊流維度資料,基於豐富的黑灰產庫沉澱了3000多個定義風險種類的特徵變數,並構建了相應的特徵工程,基於資金流相關緯度的資料也沉澱了相應的特徵變數和特徵工程,雙方透過聯合建模對這些特徵變數進行融合,只是交換了機器學習的中間值,也就是誤差和梯度,達到了資料可用不可見的效果。

透過聯合建模,江蘇銀行實現了信用卡智慧化管理,在信用卡接入規模化、盈利規模化方面取得重大突破。


Q5:當前聯邦學習有多個不同架構和產品,不同機構的聯邦學習架構是否存在技術標準差異,存在不相容的情況?

羅松:“聯邦學習”的概念最早於2016年由谷歌研究科學家H.Brendan McMahan等提出,隨後,谷歌、英偉達等國外科技公司相繼推出有關聯邦學習的演算法框架、併發布相關應用產品,如英偉達基於聯邦學習開發的Clara平臺就在醫療領域發揮出巨大價值。

騰訊是國內較早研發聯邦學習技術的企業,由騰訊安全研發的聯邦學習應用服務可以相容微眾銀行聯邦學習FATE架構和騰訊PowerFL技術架構,專注於上層的應用服務,實現業務智慧化管理。騰訊安全聯邦學習應用服務已經申請多項專利,擁有豐富的工程化工具集,解決方案處於行業領先水平。


Q6:企業在聯邦學習的應用中怎麼實現個性化的部署?

羅松:騰訊安全的聯邦學習應用雖然採用了標準化雲交付,但實質上提供的是個性化應用服務。在我們標準的技術建議書中,標準化部署後,聯邦學習對客戶的特定樣本進行聯合建模中,並自動選擇對建模效果有顯著提升的特徵變數作為入模變數。因此,對每一個客戶的具體業務,聯邦學習提供的都是個性化的模型和服務。目前騰訊安全聯邦學習應用服務還在持續最佳化中,當前一個200多個特徵變數、十萬資料量的模型訓練需要大約5小時內完成,未來這個時間將進一步縮短,這也是我們下一步重點研發的方向之一。


Q7:當前,大資料在市場中的運用越來越多,在您看來,聯邦學習的前景如何?未來能否在更廣泛的領域得到應用?

羅松: 聯邦學習的應用前景非常廣闊,只要有資料融合的需求,只要在融合的前提下需要進行隱私保護,聯邦學習都會找到非常適合的應用前景。
​​​​

相關文章