11a00155bb33994a3d

199IT資料中心微信賬戶:i199IT

自動獲取高質量網際網路資訊源是科技情報工作的一項基礎性研究內容。以網站/網頁類資訊源和Twitter資訊源為研究物件,基於共引關係以及關注關係和文字內容,分別提出了兩類資訊源的自動發現方法,並面向科技情報領域進行了實驗。對資訊源自動發現技術應用形式進行了研究,分析了科技情報工作對資訊源服務的具體要求,提出了3類應用場景。

1 引言

科技情報人員通常通過兩種方式獲取網際網路資訊:一是通過搜尋引擎對某一主題相關的資訊進行全面搜尋;二是對所關注的領域積累大量有價值的網路資訊源,通過對這些資訊源持續跟蹤而獲得領域動態。第二種方式是一個長期而持續的工作,是進行技術預警、技術熱點發現與跟蹤、技術發展趨勢預測等重要工作的基礎。因此,全面掌握所關注領域相關的網際網路資訊源,對科技情報人員來說至關重要。

網際網路資訊源是指網際網路上能夠提供資訊的各類媒體,各種機構、院校、企業幾乎都擁有自己的網站甚至社交媒體賬號,大量科技工作者通過各種社交媒體向外界釋出著科技類訊息,因此這些網站和社交媒體賬號都是科技工作人員潛在的資訊源。隨著網際網路的發展,網際網路資訊源的數量也不斷增長,截至2014年7月全球網站數目超過9.7億個,2015年5月Twitter使用者數量超過5億戶,活躍使用者超過3億戶。傳統人工積累蒐集網際網路資訊源的方式已經不能滿足大資料時代對科技情報工作的要求,因此必須對網際網路資訊源的自動發現技術開展研究。

網際網路資訊源是網際網路資料的生產者,資訊源種類和數量的增加以及活躍度的提高,導致了資料的爆炸式增長。全世界資料總量以每兩年翻一番的速度遞增,而近十年來增長最快的當屬網際網路資料。未來的任務主要不是獲取越來越多的資料,而是資料的去冗分類、去粗取精,提高知識發現的產出率[1]。要在不明顯增加採整合本的條件下儘可能地提高資料的質量。這就要求在採集網際網路資訊時儘量選擇與研究領域緊密相關的資訊源,減少不必要的資料採集。如何獲取相關性強、權威性高、時效性強的資訊源,並能夠及時有效地把資訊源提供給科技情報研究人員,是一個重要的研究課題。

目前公開的網際網路資訊源服務主要有Yahoo Directory、Open Directory Project和Go Guide等,其實質屬於目錄式搜尋引擎:一種按目錄分類的網站連結列表,使用者可以按照分類目錄或關鍵字找到所需要的站點或欄目(即網頁類資訊源)。目錄搜尋引擎以人工方式或半自動方式蒐集資訊並整理分類。例如Open Directory Project的編輯工作目前共有近9萬人參與,蒐集了400萬個站點資訊,擁有100多萬個分類。該類資訊源服務的缺點是需要人工介入、維護量大、資訊量少、資訊更新不及時。本文研究科技領域相關的網際網路資訊源自動發現技術,以網站/網頁類(以下簡稱Web類)和Twitter類資訊源作為主要研究物件,提出並實現了網際網路資訊源自動發現技術,並對資訊源的應用要求和服務形式進行了研究。

2 相關工作

2.1 問題描述

科技情報人員關注的網際網路資訊源可分為傳統的Web資訊源和社交媒體資訊源兩大類。其中,Web資訊源主要包括領域相關的新聞聚合頁或者重要機構的新聞釋出頁等。而社交媒體主要包括Twitter、Facebook、BBS、部落格或者微信等,本文選取Twitter作為研究物件。

在資訊源發現的需求建模中,科技情報人員往往無法使用有限的關鍵詞對其關注的資訊源進行描述。但是對於具有一定工作經歷的科技情報人員來說,他們已經掌握了有限數量的領域內資訊源,因此本文資訊源自動發現技術的思路是:以已知資訊源為種子,通過演算法發現更多未知的資訊源。如圖1所示,首先給定一定數量的已有資訊源作為種子,根據網頁/Twitter所具有的網路關聯特性或內容相關性,自動發現與種子領域相關且重要的新資訊源,這個過程可以轉化為挖掘與種子網頁和Twitter賬戶相關度高的其他網頁和賬戶的過程。

11a00155bb4dde81f2

圖 1 資訊源自動發現流程

2.2 相似網頁自動發現相關工作

相似網頁/網站發現的相關工作可以簡單分為基於內容的方法和基於連結關係的方法。基於內容的方法完全根據網頁的內容來計算網頁間的關聯度。參考文獻[2]從網頁的各種標籤內容中提取特徵,提出了一種模糊內容分析方法來探索網頁間的相關度。參考文獻[3]首先用元搜尋方法得到潛在相關的網頁集合,然後抽取網頁關鍵詞進行相關性分析。SimilarSiteSearch基於網頁內容,使用機器學習方法對主題相近的網頁進行識別,並在網際網路上提供有限的服務和相關API。基於連結關係的演算法將全部網頁視為一個有向圖,並利用圖的連通性和加權資訊來計算網頁間的關聯度。PageRank[4]演算法和HITS[5]演算法可以在一定程度上對相關網頁進行排序,但是PageRank演算法過分關注權威性而忽視相關性,HITS演算法中可能出現主題漂移現象。參考文獻[6]使用Companion和Co-Citation的兩種演算法來度量網頁間的相關度。Companion演算法將利用給定網頁的出連結與入連結及其鄰近網頁構建一個有權圖,並用一種HITS變種演算法來挖掘給定網頁的相關網頁。Co-Citation即共引演算法,通過檢查網頁的共引關係強度來挖掘給定網頁的相關網頁。參考文獻[7]將網頁分塊演算法引入共引過程中,並綜合了連結錨文字的相似性和網頁模板塊過濾等方法,提高了關聯網頁的挖掘精度。

2.3 相似微博使用者自動發現相關工作

社交媒體使用者之間通過關注、互動等行為形成了巨大的網路,微博相似使用者發現方法首先將分析物件定位為網路的拓撲結構,相關的研究集中在:團體挖掘(發現使用者的社交圈)[8]、人物影響力計算[9,10]、資訊傳播[11]等問題。參考文獻[12]和參考文獻[13]提出了兩種基於標籤資訊進行使用者推薦的方法。參考文獻[14]提出在社交網路的歷史資料可以獲取的情況下,使用基於內容的方法進行使用者推薦是有效的。參考文獻[15,16]對LDA模型進行改進後,將其應用於微博主題挖掘,得到了較好的效果,能夠進一步用於相似主題使用者的發現。

3 網際網路資訊源自動發現技術

本文中Web類資訊源的自動發現將完全依賴於連結關係而不考慮文字內容,這是因為Web類資訊源的所有者一般都是機構組織等,網頁內連結需經過審查才得以上線,因此比較能夠代表相關性和權威性。同時網頁內正文內容難以獲得(各網站頁面結構差異較大),噪聲較多,基於文字內容進行相關性與權威性度量並不理想。Twitter資訊源則採用基於關聯關係和內容相結合的自動發現方式,主要因為Twitter使用者多為個人,使用者之間的關注關係比較隨意和多樣化,無法真正反映出領域相關性。同時由於字數限制,推文(Tweet)內容比較精闢,在遣詞造句上多選擇具有實際意義的詞。推文內容能夠批量獲得,且結構性比較好,因此本文同時基於關聯關係和內容對Twitter資訊源進行自動發現。

3.1 網頁類資訊源自動發現技術及實現

3.1.1 網頁類資訊源自動發現技術

針對網頁類資訊源,主要基於共引思想來自動發現與資訊源相關的新資訊源。給定一個網頁u,含有指向u的連結的網頁v稱為u的父親網頁,也稱v引用了u;u內部的連結指向的網頁w稱為u的兒子網頁,也稱w被u引用。如果網頁p1和p2具有相同的父親網頁,則p1和p2稱為共引關係。

共引分析最早出現在學術文獻的分析中,共引是指兩篇文獻同時被其他文獻引用。同被引用的文獻在主題上具有或多或少的相似性,因此同被引用的次數可以預測文獻在內容方面的相關性。在網際網路中同樣存在上述特性,一般認為具有共引關係的網頁在所屬領域上具有或多或少的相似性,因此共引次數可以預測網頁在內容方面的相關性[17]。給定種子資訊源,本文通過挖掘網際網路中與其具有共引關係的網站來構建候選資訊源。

共引演算法一般過程是[6]:設u為種子資訊源,首先找到引用它的父親網頁集合BP,再抽取BP中每一個父親網頁所引用的其他網頁,組成兄弟網頁集合BS。計算BS中網頁與u出現共引的次數,共引次數越多說明與u的相關性越高。以圖2(a)為例,可以直接看出BS中的共引次數,其中s2,2與u的共引為3次。如果把閾值設為2次,則可以認為s1,2、s2,2、s4,2與u相關,它們是由種子u得到的新資訊源。

在傳統共引演算法基礎上,前期研究[18]中提出了基於多種子聯合共引的資訊源發現演算法,與傳統演算法不同,該演算法選擇N個已有資訊源(種子集合U)作為輸入,同時考慮了父親網站的質量對最終結果的影響。為了對父親網頁的質量進行度量,引入了引用度的概念。如圖2(b)所示,BP中父親網頁pi,j(i∈[1,N],j∈[1,B],其中N為種子資訊源總個數,B為每個種子資訊源父親網頁的總個數)引用U中所有種子網頁的總次數,稱為pi,j的引用度,表示為C(pi,j),對種子集合引用次數越多,其引用度就越高,代表與種子之間的相關性(質量)越高。假設在圖2(b)中p1,B和pN,1為同一個網頁,即p1,B=pN,1,以圖2(b)的引用關係為例,BP中節點的引用度見表1。相應地,BS中兄弟網頁si,j,k(k∈[1,BF],其中BF是每個父親網頁除種子資訊源外其他兒子網頁的總個數)的共引度則定義為si,j,k所有父親的引用度之和。以圖2(b)的引用關係為例,BS中節點的共引度見表2。

1150015697c3fcce44

圖 2 共引演算法示意

表1 BP 節點的引用度

11700155f4bbff9604

表2 BS 節點的共引度

1190015642352c7d71

與傳統共引思想相同,本文得到的共引度同樣代表了BS中網頁與種子網頁之間的相關性。同時,與HITS演算法[5]類似,BP對種子節點的引用度代表了Hub值,而BS中兄弟節點被BP引用的次數則代表了Authority值,因此本文共引度在一定程度上也代表了網頁的重要度。

3.1.2 網頁類資訊源自動發現技術實現

在對Web資訊源自動發現技術的實現中,首先對已掌握的資訊源按照相關度進行人工分組(每組平均10個),每個組作為輸入的種子資訊源集合。令父親網頁數B=200,兄弟網頁數BF=40。父親網頁的自動抓取使用Google公司或者AOL公司的Link搜尋功能,當查詢http://news.sciencemag.org/的父親頁面時,只要輸入“link:http://news.sciencemag.org/”,便會返回眾多父親頁面,本文通過程式設計實現了父親網頁的自動獲取。目前以現有的200個資訊源作為種子,利用本文技術獲得6 200個質量較高的新資訊源。參考文獻[18]對採用多種子聯合共引演算法與普通共引演算法的實驗結果進行了對比,指出準確度能夠提高50%以上。

3.2 微博類資訊源自動發現技術及實現

3.2.1 微博類資訊源自動發現技術

Twitter使用者之間通過關注、被關注、訊息轉發等行為構成複雜的社會網路,本文基於社會網路分析法研究Twitter資訊源自動發現技術。在Twitter使用實踐中,使用者積極選擇並參與構建個性化關係,與一些具有相似特徵和愛好的使用者自發地聚集到一起形成社群[19],因此可以把與種子資訊源處於相同社群的其他使用者作為領域相關的候選新資訊源,可以基於推文內容對相關性進一步度量。社會網路中中心度的概念往往代表著節點的重要性,因此可以通過研究社群內節點的中心度來衡量新資訊源的權威性。Twitter資訊源自動發現主要分為候選集構建、使用者重要度評估和領域相關性度量3個步驟,具體流程如圖3所示。

1180015655cd30fa80

圖3 Twitter資訊源自動發現流程

候選集構建。首先選擇種子使用者作為起點,抽取其所有粉絲(關注者)作為第二輪樣本,繼續選擇每個粉絲的粉絲作為第三輪樣本,依次進行抽取,直到達到終止條件。同時將種子使用者自己關注的其他使用者加入使用者樣本。本質上,該滾雪球樣本一般是圍繞著種子使用者的關係而組織的[20],構成的網路關聯是緊密的,可以認為該樣本與種子使用者之間已經具備一定的領域相關性。在此基礎上,利用基於圖分割的社群挖掘方法獲得種子所屬的社群,進一步剔除無關使用者。

使用者重要度評估。中心性分析以社會網路節點的度數衡量節點中心性特徵,以反映出節點在網路中的中心性地位差異,如果節點具有較高的度數,則它可能擁有更大的影響力。本專案用點度中心度來評測社群中的重要人物,點度中心度值高表示該使用者受到較多人的關注,他發表的言論能夠迅速被他人接收並對他人產生影響,該使用者具有資訊源的潛質。

領域相關性度量。領域相關性是評價資訊源質量的重要指標,通過社團發現演算法得到的候選集仍存在大量相關性不高的使用者,因此本文引入了基於主題模型的推文內容相關性度量方法。LDA(latent dirichlet allocation)是一種重要的主題模型,本文使用LDA對候選集中使用者的推文進行話題聚類,如果某個使用者與種子使用者在某一段時間內所發推文屬於同一主題,則認為該使用者與種子使用者具有領域相關性。

3.2.2 Twitter資訊源自動發現技術實現

Web類種子資訊源大都對應Twitter官方賬號,本節以Web類資訊源對應的Twitter賬號作為Twitter種子資訊源。程式設計實現了Google搜尋和Twitter API使用者搜尋相互補充的Twitter賬戶的自動獲取,由200個Web類種子資訊源得到了134個Twitter種子資訊源。

Twitter資訊的獲取主要基於Twitter API實現,首先抽取種子使用者的關注使用者以及種子使用者的粉絲、粉絲的粉絲,從而獲得使用者樣本;採用Pajek[21]對該樣本組成的網路進行視覺化分析,計算種子所在社群以及各節點點度中心度;抓取每個使用者最新的200條推文組成該賬戶的文件,使用的JGibbLda工具包對使用者文件進行聚類,預先設定主題數量為4;在聚類結果中,如果與種子文件歸屬相同的主題,則說明該文件對應的賬戶與種子具有內容上的緊密相關性,通過該過程過濾掉不相關賬戶;最後結合各使用者的中心度得到最終相關度高、重要性高的新資訊源。

4 網際網路資訊源自動發現技術應用

相比人工蒐集方法,本文提出的資訊源自動發現方法具有自動高效、覆蓋面全、對新產生資訊源反應快等明顯優勢。為了提供完善的應用服務,需要進一步對資訊源進行標註和分類,建立國別地區、技術領域、應用範圍、所有者性質(如個人、政府機構、大學院所)等維度的分類體系。然後根據資訊源對應網站和微博的標題、關鍵詞、摘要等描述資訊,利用機器學習方法實現對資訊源的分類和組織,最後形成完備的資訊源庫。結合大資料時代對科技情報工作提出的新要求,資訊源自動發現技術具有如下應用場景。

(1)構建資訊源地圖,系統掌控全球科技資訊資源

資訊源地圖指的是用視覺化手段對資訊源的綜合展示,利用地圖、熱圖和網路圖等多種形式來展現科技領域資訊源的地理位置、活躍度、統計分佈、類別、資訊源間關聯互動等情況。通過一個全面、準確、動態的網際網路資訊源地圖,決策人員和情報研究人員可以對科技資訊資源進行全域性把控和分析,從更高層次上挖掘發現其特點和規律,預測其變化趨勢,具有重要戰略意義。

(2)實現資訊源檢索服務,為情報研究工作提供保障

提供完善、靈活的資訊源檢索服務,為情報研究人員實現對科技領域網際網路資訊的持續跟蹤和完成各項應急任務提供有力保障。其檢索形式主要有以下3種。

  • 目錄式檢索:使用者通過分類層次目錄方式檢索庫中已存在的資訊源。
  • 關鍵字檢索:通過匹配資訊源對應的描述性資訊,檢索庫中已存在的資訊源。
  • 種子檢索:當利用以上兩種方式無法檢索到所需要的資訊源時,說明庫中可能不存在該類資訊源,這時使用者可以輸入已有資訊源作為種子,通過服務系統線上挖掘獲得新資訊源。

除提供以上3種基本檢索服務外,還可以開發個性訂製和相關推薦等多種形式的智慧服務。

(3)全面、深度挖掘科技資訊源,為科技情報大資料提供資料來源

自動、高效、全面發現科技領域的資訊源,建立標準的訪問介面,實現與網際網路海量資訊採集平臺無縫連線,為成規模的網際網路資訊資源獲取提供必要前提。依據具有高度領域相關性的資訊源採集資料,能夠提高網際網路資料採集的精準性和針對性,減少噪聲資料的干擾,降低頻寬、儲存和計算成本。

5 結束語

網際網路資訊源自動發現技術能夠高效發現大量新資訊源,但較大的數量可能會使科技情報人員應接不暇,同時無法保證每個新資訊源都是真正需要的,對新資訊源的二次甄別也會影響其有效利用。值得慶幸的是,大資料相關技術已經廣泛用於網際網路資訊的海量採集、處理和分析,大大提高了科技情報工作的效率,本文技術的直接使用者更傾向於機器,而非情報人員本身。

下一步工作需要充分考慮從不同型別資料中發現資訊,更全面地發現新資訊源。因此,Web資訊源自動發現和Twitter資訊源自動發現兩個過程不應孤立序列執行,應充分利用兩類資訊之間的互相對映、互相引用等關聯關係,使兩個過程緊密結合起來。再進一步,網際網路資源採集系統對資訊源採集到的網頁和推文中包含的大量外鏈資訊或者Twitter使用者資訊進行相關度和權威度的評估,選擇優質資訊源入庫,實現資訊源庫的自我擴充套件。

大資料期刊