數字經濟時代,每個個體和組織機構都已經成為海量資料的生產者和消費者,基於資料智慧的產品最佳化與迭代也已經成為智慧化程式中企業創新、發展的關鍵能力。3月20日,百度技術沙龍第90期於線上召開,沙龍圍繞“數讀城市:百度時空大資料分析與預測技術”為主題,邀請了來自百度研究院的多位資深研發工程師,就異地POI推薦、機器學習在時空大資料上的應用、群體感知、百度資料聯邦平臺等話題為觀眾分享了資料智慧方向的技術應用經驗,同時也為企業資料智慧化的發展及應用提供參考、指引方向。
百度技術沙龍自舉辦以來,在9年內面向超過9100名與會受眾舉辦了共90期活動,邀請了159位行業技術大牛、206位百度技術專家,內容覆蓋軟體開發、大資料、深度學習等當下熱門的技術話題,旨在為開發者、技術人員提供一個自由的技術交流和分享平臺。本期沙龍是百度技術沙龍升級2.0後的首期活動,內容除了兼顧分享的前沿性,更全面考慮瞭如何讓受眾更精準,傳播更有溫度,並透過與技術社群的共同行動、定向邀約,希望讓對技術感興趣、有需求的人能夠收穫一場“知趣合一”的技術宴會。
沙龍活動中,百度資深研發工程師首先圍繞著“異地場景POI推薦”和背後的“冷啟動問題”出發,為大家帶來了推薦系統中新的解決方案。相較於傳統的推薦模式,這個方案利用圖神經網路挖掘歷史使用者的本地行為偏好和異地簽到行為,從而表徵使用者的本地偏好以及異地的空間地理資訊約束,在聚合通用出行意圖與使用者個體偏好後,透過多層感知機對本地偏好與異地偏好的遷移進行刻畫。該方法的有效性,也透過真實物理世界的跨城出行記錄資料實驗進行了驗證。
另一位百度高工從機器學習技術在時空大資料以及新冠疫情防控中的應用方向,介紹了新冠肺炎高風險小區預警框架C-Watcher。C-Watcher能夠透過其具有創新性的對抗編碼器框架來提取城市之間的共性特徵,在新冠病毒從疫情重災區傳播到目標城市之前,就預測出目標城市中每個小區的疫情感染風險,以做到在疫情早期,從大量居民小區中有效地篩查出高風險小區。
此外,在智慧出行方面百度也擁有豐富的經驗。針對不同人群差異化的出行需求,百度提出了改善方案——自適應互監督多工圖神經網路(Ada-MSTNet)。該方案不僅可以在不同群體和區域對應的任務間共享資訊,還可以有效防止不相關任務之間的噪音傳播,帶領開發者瞭解圖神經網路、多工學習和自監督學習等前沿技術在城市交通預測方面的應用。
最後,百度資深研發工程師深度講解了百度資料聯邦平臺及其應用和前沿研究。百度資料聯邦平臺是基於領先的雲上可信計算和可信資料儲存容器,實現跨信任實體的雲上大規模資料聯邦計算和分析平臺,提供基於“雲智一體”的百度智慧雲的大資料處理服務。百度不止對資料聯邦平臺的儲存進行了最佳化,提升了資料儲存的效率,還基於資料聯邦平臺,與合作單位提出了第一款基於百度圖神經網路的疫情預測模型。此外,工程師們基於疫情的空間大資料,總結了疫情與搜尋、居民外出及當地經濟情況的關係。線上上沙龍中,百度工程師也分享了在數邦平臺的安全資料處理的幫助下對分散式的車輛共享進行的研究,提出了合理的車輛排程方法,從而降低了成本。另外,基於資料聯邦平臺的聯邦學習與可解釋性的研究與進展也是本次分享中的一大亮點。
“資料是21世紀的石油”,資料的重要性已然成為行業共識。站在“十四五”開局之年,以雲端計算、人工智慧等為代表的新興技術,正在推進資料智慧的發展,不斷推動技術創新和落地應用。未來,百度技術沙龍2.0還將不斷凝聚前期活動的經驗,透過“有趣,有料,有溫度“的方式將最實用的專業知識傳遞到有需求的人手中,進而從人才角度助力產業智慧化轉型,讓所有人都有望分享到數字經濟帶來的紅利。