基於深度學習的網路表示 [session]

OReillyData發表於2017-06-15


Strata Data Conference北京站大會還有一個月即將召開,

有需求的同學還請抓緊時間,

點選二維碼即可登入會議官網報名。

640?wx_fmt=png


基於深度學習的網路表示

講師:張銘 (北京大學)

14:00–14:40 Saturday, 2017-07-15

AI應用 (AI applications)

地點: 報告廳(Auditorium)

觀眾水平 (Level): Intermediate

必要預備知識

瞭解人工智慧、深度學習的基本原理

您將學到什麼

大規模的網路結構資料和豐富的網路節點資訊對相關的研究方法提出了新的挑戰,受到了學術界和工業界的廣泛關注。聽眾可以瞭解學習網路的低維網路表示,瞭解Line和LargeVis這兩個開源工具的基本理論和應用。

描述

網路結構在現實世界中無處不在(如航線網路、通訊網路、論文引用網路、世界全球資訊網和社交網路等),大規模的網路結構資料和豐富的網路節點資訊對相關的研究方法提出了新的挑戰,受到了學術界和工業界的廣泛關注。本報告重點介紹北大博士畢業生唐建和導師張銘團隊合作的系列工作。


學習網路的低維網路表示,在不同應用領域中體現出很好的效率和效果,近年來受到了學術界和工業界的密切關注。本報告將對基於神經網路的網路表示方法進行了介紹,相比傳統的獨熱表示(one-hot representation),表示學習能夠抓住資料之間的相似性同時緩解資料稀疏性問題(data sparsity)。這些方法可以處理現實世界中擁有百萬級節點和十億級邊的網路結構,主要考慮了網路結構資訊和網路節點自身資訊(如文字資訊和屬性資訊等)。


LINE模型提出了一種適用於不同類別網路圖結構(有向圖、無向圖和加權圖)的網路學習模型LINE。具體上,LINE模型從一階相似性(first-order proximity)和二階相似性(second-order proximity)兩方面設計目標函式。基於一階或者二階相似性,LINE可以分別學習到一種網路表示。為了同時使用這兩種相似性,LINE模型將一階節點向量和二階節點向量拼接起來作為最終的節點表示。LINE模型很好地抓住了詞之間的全域性共現資訊,學習詞的向量表示,相比現在流行的Skip-gram詞向量模型效率更高而且效果更好。


LargeVis研究如何將龐大的資訊網路植入到低維空間並進行視覺化分析。首先根據資料構造一個準確的K近鄰圖,然後再在低維空間對圖進行佈局。LargeVis顯著降低了計算成本,有效地優化通過非同步的隨機梯度下降法達到了線性時間複雜度,整個過程因此很容易擴充套件到數百萬高維資料點,使得在二維或者三維空間上直觀地觀察和理解高維資料成為可能。


LINE和LargeVis的研究論文先後發表在WWW 2015和 WWW 2016上,獲得WWW 2016最佳論文獎提名(最終排名第二),累計他引已經超過200篇次,在深度學習相關領域得到了廣泛的應用。


參考文獻:

1. 張銘,尹伊淳,唐建,基於深度學習的網路表示研究進展,人工智慧通訊,2016.03.31,6(3):1~6.

2. Jian Tang,Jingzhou Liu, Ming Zhang, Qiaozhu Mei,Visualizing Large-scale and High-dimensional (#) Ming Zhang(*) Data,Proceedings of the 25th International Conference on World Wide Web,Montreal,2016.04.11-2016.04.15

3. Jian Tang,Jingzhou Liu,Ming Zhang,Qiaozhu Mei,Visualizing Large-scale and High-dimensional Data,25th International Conference on World Wide Web,Montreal, Canada,2016.04.11-2016.04.15.



講師介紹:

張銘 (北京大學)

640?wx_fmt=jpeg

張銘,北京大學資訊科學技術學院教授,博士生導師,ACM Education Council惟一的中國委員兼任中國ACM教育專委會主 席,是ACM/IEEE IT2017學科規範起草小組成員。自1984年考入北京大學,分別獲得學士、碩士和博士學位。研究方向為文字挖掘、社會網路分析、教育大資料等,目前主持國家自然科學基金和教育部博士點基金在研專案,合作發表科研學術論文100多篇(ICML, KDD, AAAI, IJCAI, ACL, WWW, TKDE等A類會議和期刊),獲得ICML 2014最佳論文獎。發表了SIGCSE、L@S等教學研究論文,出版學術專著1部,獲軟體著作權6項,獲發明專利3項。主編多部教材,其中2部教材為國家“十一五”規劃教材,《資料結構與演算法》獲北京市精品教材獎並得到國家“十二五”規劃教材支援。主持的“資料結構與演算法”被評選為國家級和北京市級精品課程,也是教育部精品資源共享課程。

640?wx_fmt=png


相關文章