個性化技術綜述

xyzlotus發表於2009-06-09

個性化技術綜述

摘要:本文簡述了個性化服務的概況,並總結了使用者描述(User profile)、資料探勘與推薦技術。最後,介紹了個性化技術的應用。

關鍵詞:個性化 定製 資料探勘

1、      個性化服務簡介

隨著網際網路的飛速發展,World Wide Web已經深入到社會生活的各個方面,Web蘊涵著具有巨大潛在價值知識的分散式資訊空間。Internet給人們帶來極大便利和豐富的資訊資源的同時,也產生了一些亟待解決的問題,即“資訊過載”和“資訊迷失”。

有效解決這些問題的辦法,就是利用新技術提高使用者獲取資訊的能力,使資訊服務更加符合使用者自己的需要,概括地說,就是建立面向使用者的個性化服務機制。

個性化資訊服務是網路資訊服務發展的重要方向,已經引起國內外許多專家學者的研究興趣。何謂個性化資訊服務?在一些文獻裡,又將個性化資訊服務稱之為個性化服務、個性化定製服務、個性化資訊搜尋服務、個性化資訊推薦服務等等。本人認為,人性化服務,就是根據使用者的興趣、偏好、行為,來向使用者提供滿足其個性化需求的一種服務。個性化服務針對不同的使用者,採取不同的服務策略和方式。使用個性化與定製技術,可以實現這種服務。

個性化是指通過收集、儲存和分析網站瀏覽者的資訊,從而以使用者喜歡的形式和佈局傳送合適的資訊。個性化通過在網站和瀏覽者之間建立一對一的關係來提升使用者的滿意度和忠誠度,同時提供基於使用者個人需求的產品和服務來增加銷售量。個性化的目標是預測消費者的需求從而更好的服務消費者,通過提供定製的服務和產品建立長期的關係,從而促使消費者的後續訪問。

定製描述的是使用者所能控制的介面屬性,使用者必須根據自身的選擇和需求設定網站提供的產品和服務,這種系統是被動,只有通過使用者的手動設定才能實現。相比之下,個性化是基於先前使用者的歷史記錄或相似使用者的描述自動實現的,它不需要使用者的參與。定製又可以分為內容定製、檢索定製和介面定製等。

目前使用最多的是通過個性化技術,來達到為使用者提供個性化服務的目的。

2、      獲取使用者描述

個性化需要關於使用者喜好、需求、目的和期望等資訊。用於描述特定使用者的資訊的收集過程稱為使用者描述。使用者描述的主要組成部分是:行為和事實。事實部分包括人口統計學和事務的資訊,例如:年齡、收入、受教育水平、喜歡的品牌等等。行為部分包括消費者線上活動的資訊等。

使用者描述的資料的收集可以是隱式(implicit )的或顯式(Explicit )的。顯式的收集需要使用者的主動參與,因此使用者可以控制描述的資訊。顯式的描述可以採取不同的形式,如使用者在註冊時填寫的表格、調查問卷等,這種方法的優點是讓消費者直接告訴網站他們需要什麼以及怎樣滿足他們的需求。隱式的描述不需要使用者的輸入而是在後臺完成,通常隱式的描述意味著追蹤和監測使用者的行為,從而確定使用者瀏覽和購買的型別,這對於使用者是透明的,在許多情況下並沒有經過使用者的許可。

獲取使用者描述的方法可以通過WEB使用挖掘來獲取。網路使用者訪問記錄的挖掘主要是從Web的訪問記錄中抽取具有意義的模式。Web中的每個伺服器都保留了使用者的訪問日誌(Web access log)等記錄,儲存了有關使用者訪問和互動的資訊。分析這些資料可以用來了解使用者的需求行為,為使用者提供個性化的服務。目前Web使用記錄挖掘技術和工具可以分為兩大類:訪問模式的追蹤和個性化的使用記錄的追蹤。一般的訪問模式追蹤通過分析使用記錄來了解使用者的訪問模式和傾向,以改進站點的組織結構;而個性化的使用記錄追蹤則傾向於分析個別使用者的偏好,其目的是根據不同使用者的訪問模式,為使用者提供個性化的定製服務。

使用者訪問挖掘針對使用者對Web的訪問記錄,利用路徑分析、分類聚類、關聯規則和序列模式的發現等方法進行分析,尋找其中蘊涵的使用者知識和模式。Web訪問資訊挖掘的資料物件主要是日誌資料。當使用者訪問Web伺服器時,伺服器方將會產生三種型別的日誌檔案:Server logsError logsCookie logs,記錄使用者的訪問情況。

另外在文獻中提出在客戶端使用Agent來收集使用者資訊。Letizia是另一種用於客戶端個性化的代理軟體。它通過觀察使用者的行為來得到模型,這個使用者模型由代表使用者興趣的加權的關鍵字序列構成。Letizia在使用者登陸網站之前瀏覽網站,然後推薦使用者可能感興趣的連結。

3、      為使用者進行推薦

在得到使用者描述這後,需要對使用者描述的資訊進行分析,來了解使用者的興趣和偏好。然後使用推薦技術為使用者作出推薦。目前比較流行的個性化技術有基於規則的過濾、協同過濾、基於內容的過濾,這些技術主要用於預測消費者的興趣從而做出推薦。

目前實現個性化推薦的主要技術有:

1.基於內容推薦(Content-based Filtering)

根據U的評分生成專案的分類器。推薦結果直觀,容易解釋;不需要領域知識。

2.協同過濾推薦(Collaborative Filtering)

識別u的鄰居使用者;根據其生成i的預測評分。新異興趣發現、不需要領域知識;隨著時間推移效能提高;推薦個性化、自動化程度高;處理複雜的非結構化物件。

3.基於人口統計資訊推薦

識別u的相似使用者根據其生成i的預測評分。新異興趣發現;沒有新使用者問題;不要領域知識。

4.基於免疫原理的推薦

通過訓練得到抗體;由抗體產生推薦。推薦準確率較高,自適應性強。

5.基於資料探勘的推薦

對使用者U的歷史行為進行資料探勘併產生推薦。具有準確率高,自適應性,個性化程度高;自動化推薦;不需要領域知識;可面向非註冊使用者推薦。

4、      個性化技術的應用

1)、自適應站點

一般的網站主要是為滿足普通使用者的需求而設計的,而自適應性網站為個人或團體使用者提供了更合適更定製的內容,從而能夠有效地與使用者進行交流。自適應性網站通過學習訪問者的訪問模式半自動化地提高自身的組織和表達能力,自動地建立新的網頁、刪除或增加連結等等。自適應性網站可以分為個人性的和團體性的,個人性的自適應性網站由大量的單個使用者描述所構成,而團體性的自適應性網站的目的是一組使用者,它只需要少量的用於每一組的使用者描述。

Perkowitz Etzion提出了索引頁合成演算法,這個演算法能夠自動的生成幫助使用者瀏覽網站的索引網頁。每個索引網頁由一系列已存在且包含使用者興趣的主題的但不能連線的連結構成。為了在網站中收集相關的網頁,網頁收集演算法採用了聚類挖掘的方法,這個演算法通過獲得網站伺服器訪問日誌檔案,計算網頁間同現的頻率來構造相似矩陣,然後將這個相似矩陣轉換成相似曲線圖,從而找出最大圈,每個最大圈代表了一系列趨於被同時訪問的網頁。

Corin R.AndersonPedro Domingos Daniel S.Weld提出了為無線移動使用者提供個性化定製和自適應導航並研究了捷徑尋找問題。

2)、推薦系統

目前,推薦系統已經在B-to-C電子商務網站中得到應用。推薦系統可以為使用者推薦商品,同時為消費者提供幫助購買決策的資訊。推薦系統為使用者提供了面對大量商品資訊時如何選擇產品的解決方案。一些電子商務網站為使用者提供了無數的產品,因此客戶作出選擇是非常困難並且乏味的。

推薦系統對電子商務的貢獻主要有三點:第一,幫助提高交叉銷售;第二,促使偶然的訪問者轉變成購買者;第三,幫助建改善客戶的忠誠度和客戶回頭率。

目前存在著許多個性化推薦系統,它們提出了各種思路以實現個性化服務.個性化服務系統根據其所採用的推薦技術可以分為兩種:基於規則的系統和資訊過濾系統.資訊過濾系統又可分為基於內容過濾的系統和協作過濾系統.

基於規則的系統如:IBM WebSphere,BroadVision,它們允許系統管理員根據使用者的靜態特徵和動態屬性來制定規則,一個規則本質上是一個If-Then 語句,規則決定了在不同的情況下如何提供不同的服務.基於規則的系統其優點是簡單、直接,缺點是規則質量很難保證,而且不能動態更新,此外,隨著規則的數量增多,系統將變得越來越難以管理.

基於內容過濾的系統如:Personal WebWatcher, Letizia,它們利用資源與使用者興趣的相似性來過濾資訊.基於內容過濾的系統其優點是簡單、有效,缺點是難以區分資源內容的品質和風格,而且不能為使用者發現新的感興趣的資源,只能發現和使用者已有興趣相似的資源.

協作過濾系統如:WebWatcher,它們利用使用者之間的相似性來過濾資訊.基於協作過濾系統的優點是能為使用者發現新的感興趣的資訊,缺點是存在兩個很難解決的問題,一個是稀疏性,亦即在系統使用初期,由於系統資源還未獲得足夠多的評價,系統很難利用這些評價來發現相似的使用者.另一個是可擴充套件性,亦即隨著系統使用者和資源的增多,系統的效能會越來越低.

3)、自適應網店

自適應性Web商店是自適應性網站的一種特殊型別,它通過使用消費者的偏好來提出最適合消費者需求的專案。

Lilliana Ardissono Anna Goyr在文獻中提出了SETASETA是一種用於建立自適應性Web商店的工具,它主要採用使用者模型,根據消費者的喜好分組,每一組使用者使用一個稱為模版的描述,每個模版用以預測這組消費者的喜好、產品的選擇等等,但是SETA必須依賴使用者的註冊。

5、      總結與展望

個性化服務技術是目前非常流行的一種技術,本文分析了各種具有代表性的個性化服務系統,並在此基礎上詳細描述了建立個性化服務的關鍵技術.面對日益增長的Web 資訊,要滿足不同背景、不同目的和不同時期的查詢請求,必須針對不同使用者提供不同的服務才能真正解決這個問題.

目前已經存在很多個性化服務系統,不過大部分都只是研究原型,也有一些系統已經推向了市場.隨著電子商務的不斷髮展,個性化服務顯得越來越重要,它能將電子商務網站的瀏覽者轉變為購買者、提高電子商務網站的交叉銷售能力、提高客戶對電子商務網站的忠誠度.儘管已經存在許多個性化服務系統,但個性化服務技術仍有很多值得研究和探討的領域,歸納起來有以下幾個方向:

1)、在個性化推薦系統中使用智慧代理Agent.智慧代理是一種能夠完成委託任務並可以快速瀏覽網際網路,尋找我們所要的資訊的計算機系統。智慧代理具有自治性,社會性,反應性,主動性和推理能力。它能模仿人的行為執行一定的任務,不需要或很少需要使用者的干預和指導。智慧代理技術通過跟蹤使用者在資訊空間中的活動,自動捕捉使用者的興趣愛好,能代表使用者工作,引導、代替使用者訪問資訊資源。該技術解決了傳統搜尋引擎的不足,可以根據使用者的個人偏好和反饋自動檢索,自主執行,及時獲取使用者資訊,提高資訊檢索和推送的準確率。總之,智慧代理技術的使用將大大提高Web資訊檢索的自主性、靈活性和精確性。

2)、多種推薦技術相結合。無論是基於內容的過濾系統還是協作過濾系統,它們都有不同的缺點。基於內容過濾的技術是通過比較資源與使用者描述檔案來推薦資源。它的關鍵問題是相似度計算。如果使用者的描述檔案沒有正確描述使用者的興趣和行為,那麼該方法推薦的資料可能和使用者真正的興趣根本不相關。從而難以區分資源內容的品質和風格,而且不能為使用者發現新的感興趣的資源。協作過濾技術應用比較普遍,它的核心問題是為當前使用者尋找K個最相似的鄰居來預測當前使用者的興趣。該方法在實踐過程中遇到兩個很難解決的問題,一個是稀疏性,另一個是可擴充套件性。隨著系統使用者和資源的增多,該方法效能會越來越低。基於web使用挖掘的個性化推薦通過Web使用挖掘,對使用者訪問網站的行為模式和使用者描述檔案進行捕獲分析和建模,這些發現的模式可以用來了解訪問者的行為習慣、愛好,進而優化網站的組織結構,根據不同的使用者為其提供動態的個性化推薦。Web使用挖掘提供的靈活性可以幫助提高以上討論的幾種方法的效能,也可以修正他們的缺點。特別的,web使用挖掘技術,如關聯規則挖掘、序列模式挖掘等,它們在離線模式下對使用者事務進行處理來實現模式發現,從而在處理點選流和電子商務資料時,可以提高協作過濾系統的擴充套件性。如果能將不同推薦技術相結合,就能彌補各自的缺點。在滿足覆蓋率的同時,能提高系統推薦的準確率

3)、為無線使用者提供個性化定製。隨著無線使用者網路的發展,越來越多的使用者通過手機等無線裝置訪問站點。由於移動裝置螢幕較小,頻寬有限,如何有效的為移動使用者定製頁面也是一個研究的方向。已有的成果一是對網頁的內容進行定製,消去圖片,動畫等,二是為目的頁面新增“捷徑”,這樣就可以避免延遲。

4)、推薦系統的安全性問題。安全與隱私保護是個性化資訊服務中非常重要的內容。安全包括使用者使用管理和系統安全管理。首先,隱私保護需要制定完善的隱私保護政策,提供隱私政策公示,提供設定使用者隱私公開程度的工具,運用保證隱私不外洩的保護技術。其次,也要注意提供的個性化服務真正符合使用者需要,不能強行向使用者推送使用者不需要的資訊。另外,必須利用安全認證技術、資料加密存貯與傳輸技術、網路安全技術保證個性化服務系統的穩定性、安全性和抗攻擊性,否則就可能弄巧成拙。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/12443821/viewspace-605686/,如需轉載,請註明出處,否則將追究法律責任。

相關文章