編者按:資訊檢索、知識管理和資料庫領域中的頂級ACM會議CIKM於今年10月末在美國印第安納波利斯舉行。本次我們邀請到了微軟亞洲研究院資料探勘與企業智慧組(DMEI)實習生、華南理工大學和微軟亞洲研究院聯合培養專案博士生王鵬偉同學與我們分享他眼中的CIKM大會。大會反映出了業界目前哪些研究熱點?大資料科學領域又有哪些最新的發展前沿趨勢?下面讓我們跟隨王同學的腳步一起來了解本次大會。
CIKM是資訊檢索、知識管理和資料庫領域中頂級的ACM會議。
自1992年以來,CIKM成功匯聚上述三個領域的一流研究人員和開發人員,為交流有關資訊與知識管理研究、資料和知識庫的最新發展提供了一個國際論壇。大會的目的在於明確未來知識與資訊系統發展將面臨的挑戰和問題,並透過徵集和評估應用性和理論性強的高質量研究成果以確定未來的研究方向。
2016年的CIKM大會於10月24日至10月28日在印第安納州的印第安納波利斯舉行。
印第安納波利斯位於印第安納州的中央,跨懷特河兩岸,是印第安納州最大城市和首府,歷史上因其工業(特別是製造業)聞名,也是體驗美國獨特賽車文化的去處。在印第安納波利斯賽道上舉辦的比賽不計其數,但要說最知名和最重要的,那還要數“印第安納波利斯500英里大獎賽”。而在主會第二天晚上正好趕上印第安納步行者隊和達拉斯小牛隊的籃球比賽,對於籃球愛好者來說沒有什麼比親臨現場吶喊助威更讓人感到精神振奮了。
即使對這些激烈運動都不感冒,你也會發現,印第安納波利斯是一座喧囂而又不失寧靜的城市,高聳巍峨計程車兵與水手紀念碑、莊嚴雄偉的世界戰爭紀念館、安靜祥和的Canal Walk以及散發著運動氣息的NCAA冠軍堂,俯拾皆風景,沿著美麗的Canal Walk走一圈,心中即使有再多的煩惱也會煙消雲散……
海納百川 有容乃大
CIKM-2016繼續注重滿足使用者擁有統一的可訪問的結構化和非結構化系統的需求:處於資料庫、資訊檢索以及知識管理的交匯點,CIKM-2016大會著重強調大資料科學的前沿與應用,洞察大資料科學領域中的最新動態。
本次會議由大會主席翟成祥教授致開幕詞,並介紹本次會議的投稿、審議標準和論文錄用等情況,這也拉開了CIKM-2016大會的帷幕。今年大會日程包括專題報告(Tutorials)、大會主會議(Main Conference)和研討會(Workshops)三大部分。在研究性領域(Research Track)中一共收到701篇長文(10頁)和234篇短文(4頁)的投稿,其中160篇長文被錄取,錄取率為23%。同時,今年為挽留一部分被淘汰的長文,主辦方給予其作者修改為擴充版短文(6頁)的機會,最終54篇擴充版短文(6頁)和55篇短文(4頁)被錄取,錄取率為24%。在工業性領域(Industry Track)當中一共收到111篇長文(10頁)、26篇短文(4頁)以及58篇demo論文的投稿,最終22篇長文、7篇短文以及20篇demo論文被錄取,錄取率分別為19.8%、26.9%和34.5%。本次會議首次嘗試將工業論文擴充套件到10頁。在這兩百多篇研究性論文中,論文方向極其多樣化,下圖所示為錄取論文方向分類以及論文內容字元雲圖。在本次大會中,所有的長文均獲得了寶貴的20分鐘口頭報告的機會,短文則以海報展示為主。下圖(左)所示為不同領域的投稿量,從圖中可見圖模型、分類任務、學習排序、資訊檢索以及知識庫仍然是投稿量最大的5個領域。下圖(右)為本次會議論文字元雲圖,其中Data、Learning以及Search等關鍵詞出現頻率較高,這也很好地吻合了本屆CIKM的主題“Big Data”。
下圖為本屆CIKM會議的參會註冊人數比例統計圖,顯示來自中國參會的學者比例居於第一。
深入淺出,全面剖析
在CIKM-2016大會的第一天總共有8場專題報告(Tutorials),每場將近持續3個小時,中途有半個小時的茶歇休息時間,很多與會人員會利用這段時間和主講人仔細探討交流。8場專題報告雖然各自主講的領域不同,但是基本上全部圍繞在資料(data)這一核心上。例如,由IBM的Ping Zhang帶來的“Big data science in drug discovery and development”的專題報告中,將資料探勘方法應用在醫學資料上,自動地從文字中提取藥物名稱以及加快藥物研發速度,降低研發成本以及時間;James G. Shanahan帶來的“Large scale distributed data science using Apache Spark 2.0”的專題報告中,系統講述瞭如何在Apache Spark 2.0平臺上處理大規模資料集。透過聽取這些詳細的專題報告,即使沒有相關的專業背景,也能快速對一個領域有一個宏觀的認識。
除了專題報告,CIKM-2016還舉辦了多場特邀報告,其中包括3個學術性特邀報告以及4個工業性特邀報告,主講人來自五湖四海,既有來自於高校的著名教授,也有來自於企業界的主要負責人。比起主題講座,特邀報告內容則更加全面細緻,基本可以涵蓋這一領域的歷史發展,同時也給出該領域的展望以及預測。下圖為3個學術性特邀報告的主講人。
- Rakesh Agrawal教授的報告題為“Toward Data-Driven Education”,提出並給出如何將日常學習教育抽象成一個知識圖譜,其中每一個節點均是一個學習單元,再根據這樣一個構建好的知識圖譜,使用資料探勘技術來提高整體的學習目標。這就給出了一個很好的將學術(知識圖譜以及資料探勘)與產業(學習教育)相結合的例子,非常有創意,感興趣的讀者可以複製以下連結以下載Rakesh Agrawal教授本次講義(https://aminer.org/archive/5807c78232917761ff2bf3ae)。
- Susan Dumais教授的報告題為“Personalized Search: Potential and Pitfalls”:傳統的搜尋引擎對不同使用者提出的同一問題返回的搜尋結果是相同的,然而有時不同的人對同一個提問會有不同的意圖,這造就了個性化搜尋的誕生,Susan Dumais提出了一個統一的框架,將個人資訊融合到搜尋引擎中,最終達到個性化搜尋的要求。讀者可在此下載講義(https://cn.aminer.org/archive/573697446e3b12023e631cd5)。
- Andrei Broder教授的報告題為“A Personal Perspective and Retrospective on Web Search Technology” ,透過回顧自己近20年中關於網際網路搜尋以及預測的工作,指出了在這20年的成果中,哪些取得讓人滿意的結果,而哪些方法又會產生不好的結果。
奇思妙想,別出心裁
本次大會的最佳論文獎頒給了“ Vandalism Detection in Wikidata” (doi>10.1145/2983323.2983740),最佳學生論文獎頒給了“Medical Question Answering for Clinical Decision Support” (doi>10.1145/2983323.2983819)和“Constructing Reliable Gradient Exploration for Online Learning to Rank” (doi>10.1145/2983323.2983774)兩篇論文,最佳展示獎頒給了“ Inferring Traffic Incident Start Time with Loop Sensor Data” (doi>10.1145/2983323.2983339).
以下簡單介紹一下這幾篇優秀論文(更多優秀會議論文分析,敬請期待)。
“Medical Question Answering for Clinical Decision Support”:這篇論文屬於自動問答系統研究範疇,首先從大量電子醫療文件(EMRs)建立好一個非常大的機率性醫療知識圖譜,然後根據知識圖譜以及給定的醫療案例topic(包含該醫療案例的描述性片段、醫療案例總結以及該醫療案例問題),提出三種答案生成的方法,最後用已生成的答案將相關的科學文獻排序。
“Constructing Reliable Gradient Exploration for Online Learning to Rank”:這篇論文提出兩種方法來改進現有的在資訊檢索系統中使用的線上學習排序(OLR)演算法。第一種為DP-DBGD, 該方法是從DBGD方法擴充套件而來,透過使用兩組隨機相反的梯度探測方向取代隨機單方向梯度探測來減少梯度逼近的差異。第二種為MP-DGD,不同於之前使用隨機向量構建無偏梯度估計的OLR演算法,該方法透過一系列標準單位基向量來構建一個確定性的梯度估計。該論文最後還提出一種利用歷史探索得到的先驗知識使多個檢索結果融合為一個交叉結果的演算法CI。
“Vandalism Detection in Wikidata”:這篇論文提出了一種新的機器學習方法來自動檢測Wikidata中的惡意修改。該文從內容資訊和上下文資訊角度提出了47個特徵。基於內容資訊的特徵集合主要包含字元級特徵集合、詞級特徵集合、句子級特徵集合以及陳述級特徵集合。基於上下文資訊的特徵集合主要包含使用者級特徵集合、條目級特徵集合以及修正級特徵集合。根據上述特徵集合,使用隨機森林作為分類器進行分類。
我們團隊的論文“Learning to Extract Conditional Knowledge for Question Answering using Dialogue”則是一篇關於知識庫搭建的文章。在現實生活中,很多人機對話往往由於條件不足而引起,比如在預訂車票的對話中,常常由於使用者在發起訂票命令時缺少“時間”,“地點”,“人名”等條件,導致智慧助手會主動提問,從而產生了長對話。類似的應用場景還有預定會議室、購買手機等場合。然而在目前的對話系統中,這些所謂的條件往往都是人工提前設定好的,只要系統檢測到使用者沒有提供這個條件就會主動發問。然後每個場景的條件往往很不相同,這就需要大量的人力來手動提取條件。基於此,我們提出從問答語料庫中自動抽取條件性知識庫用以支撐人機對話。傳統的知識庫或知識圖譜以三元組形式儲存,即(主語,謂詞,賓語)。本文提出的條件性知識庫的形式為(主語,謂詞,賓語|條件),其意義在於在給定主語和謂詞不變前提下,賓語會根據條件的不同而不同。在抽取得到的條件性知識庫後,使用者輸入一個問題,我們的系統首先會檢測使用者問題是否缺少條件,如果缺少就反問使用者並讓使用者補全條件,最後系統返回正確的答案。
CIKM 25週年慶典
CIKM大會從1992年開始至今已經走過了25年,今年的大會特別回憶了起步之初的情景:第一屆會議在Radisson Lord Baltimore酒店舉行(如今已破產),當時大家對於網際網路還是特別新鮮。Tamer Ozsu和Ed Fox關於DBMS和IR講了一整天的專題報告,而Bruce Croft則給出了CIKM史上第一個邀請報告。當年參與過第一屆會議的學者如果親臨現場肯定會有往事歷歷在目之感,而現場也邀請了前幾屆大會主席依次上臺回顧CIKM這25年的歷程。
謝樂星教授給出了CIKM從1992起到2015年這24年裡論文的引用統計圖表(更多內容參見http://cm.cecs.anu.edu.au/citation/CIKM/)。從下面兩圖均可看到,就引用和被引用的比例而言,CIKM和COLING、WSDM、ICDM、EMNLP、ACL、WWW、AAAI、SIGIR、KDD等國際頂尖會議的互相引用比例相近。從CIKM引用其他會議或期刊比例來看,SIGIR、WWW、KDD、VLDB以及SIGMOD居於前五位。從CIKM被其他會議或期刊引用比例來看,SIGIR、WWW、KDD、ECIR、TKDE居於前五位。謝教授根據CIKM近24年的引用統計圖表,給出了一個有意思的結論:科學想法來自何方,又去到何方?
同時謝教授又給出了一個關於“在CIKM發表的文章,最多能持續多長時間被引用”的統計,結果基本成線性遞減。基於此,謝教授也給出了一個很有意思的話題:經過5年、10年、20年,哪些論文是最容易忘記的,哪些論文會一直被研究者牢記?
立足今日,展望未來
本次CIKM在展示相關領域最新研究動態的同時,也對資訊檢索以及知識挖掘的下一步發展有啟示意義。
深度學習在資訊檢索中進一步應用。此前深度學習在影像和語音領域中取得了巨大的成功,但是在資訊檢索中效果不盡如人意。究其原因主要在於影像語音和文字有很大的本質區別,將適用於影像和語音的深度模型直接移植用於文字往往效果不會好,應根據文字自身性質來改變網路結構。
半監督學習的應用。由於近年來資料量急劇增大,人工標註已然不現實,既浪費人力、財力,又浪費時間。近年來很多研究員著手研究利用半監督演算法或者類半監督演算法來充分利用沒有標記過的資料或者其他任務中標記過的資料,比如多檢視學習(multi-view learning)、主動學習(active learning)、多工學習(multi-task learning)、遷移學習(transfer learning)以及終身學習(lifelong learning)等演算法。
個性化服務的搭建。隨著人類需求多樣性的增加,使用者對傳統的智慧服務要求也是越來越複雜,對使用者最為貼心的當屬個性化服務,比如個性化搜尋以及個性化智慧助手等服務。然而個人檔案和外部資料比起來,資料量非常之少,因此,如何將個人檔案等小資料融合到外部的大資料,並且個人檔案小資料也會影響最終的結果,是一個非常有挑戰的任務。
CIKM大會至今已經成功舉辦25屆,每一屆均吸引著無數的科技界與企業界研究人員參加,會議的研究領域也在不斷拓寬。本屆會議主題聚焦大資料科學,無論是特邀報告、專題報告還是會議論文報告,都是一場巨大的文化盛宴。總的來說,這次參加CIKM-2016大會讓我收穫良多。CIKM作為資訊檢索、知識管理和資料庫的一個綜合性會議,使我在認識更多優秀同行的同時,也能洞察目前最新研究的發展及動態。
CIKM 2017將在新加坡舉行,屆時會有哪些文化與科技的碰撞?讓我們拭目以待。