無線音樂是使用者利用手機等通訊終端,以WAP、WEB、APP等接入方式獲取以音樂為主題內容的相關業務的總稱,具體包括彩鈴、無線音樂俱樂部、及手機客戶端軟體等業務。可以說在智慧手機時代,手機客戶端音樂逐漸成為使用者享受生活的主要方式。
隨著智慧手機的不斷普及,無線音樂行業成就了一些大頭手機音樂客戶端公司,這些公司擁有著上百萬甚至千萬級別規模的使用者群體。
手機客戶端音樂的不斷髮展及使用者群體的不斷壯大,隨之也帶來了大量無線音樂資料的產生。這些資料看似雜亂無章、繁多冗餘,但卻隱藏著很多的祕密。如果能有效地對這些資料進行組織管理,並且利用相關技術進行挖掘、分析,少則可以揭示一個公司一次決策實施後的效果,發現公司現有存在的重大問題,多則發現潛在的高價值業務或需求,這些業務或需求很有可能為公司的發展提供戰略性指導意見。
下面以國內某著名手機客戶端音樂公司的無線音樂資料為例,我們還是按照發現問題、解決問題、結果驗證這三個方面來說明無線音樂資料的組織與應用。
發現問題
通過對該資料進行分析挖掘,我們發現如下幾個問題。
(1) 使用者、歌曲均存在長尾效應
從資料中我們發現使用者有兩種行為,一種是下載、一種是試聽,
每種行為中,我們發現使用者和歌曲均存在“長尾現象”,絕大部分使用者只試聽或下載系統中的少部分歌曲,而大部分歌曲出於閒置狀態。具體資訊如下圖
音樂的長尾問題
說明:圖中左子圖橫座標表示使用者的聽歌,縱座標表示對應使用者所佔比例。右子圖橫座標表示歌曲的被多少人聽過,縱座標表示對應度歌曲所佔比例。造成這方面的原因可能是:資料量大,資訊過載嚴重使用者找不到自己喜歡的歌曲。
此時大多數使用者直接轉向流行榜或熱歌榜歌曲,就會造成系統中熱門歌曲越熱門,冷門歌曲越冷門的現象。
(2) 歌曲覆蓋率低
從資料中我們還發現歌曲的覆蓋率很低,在整個抽樣資料中歌曲
覆蓋率只有2.01%。絕大部門歌曲根本沒有被使用者聽過或者下載過,這不僅造成系統資源的大量浪費,而且造成公司資金的無辜流失(因為每首歌曲都要付版權費,而系統中98%的歌曲處於浪費狀態)。歌曲的覆蓋率累計分佈如下如圖。
歌曲覆蓋率圖
說明:圖中橫座標表示歌曲的被聽歌人數(去重),縱座標是不小於這個數目的歌曲所佔的比例。
造成這方面的原因可能是:大量歌曲處於冷啟動狀態,資料稀疏。作為冷啟動作曲,系統不知道如何把他推送到適當的使用者手裡,而使用者也不能通過有效方式找到他,就使得這類歌曲處理系統的暗處,不容易被發現。
(3) 使用者每天聽歌時間呈間斷性分佈
在給定的樣本資料中,我們發現使用者聽歌行為並不是均勻分佈,而是間斷性分佈,即在不同的時間使用者聽歌集中度不同。為了更好的看出效果,我們將一天分為8個時間段,每個時間段包括3個小時,在每個時間段內使用者聽歌活躍性如下圖。
使用者活躍時間圖
說明:圖中橫座標表示時間段,縱座標是該時間段內使用者的活躍性比。
造成這方面的原因可能是: 下班、休息、乏困疲憊時間
使用者在無限端聽歌的模式還是傾向於休閒與娛樂,主要是以休息碎片時間為主。
(4) 不同使用者對歌曲的屬性依賴性不同
在樣本資料中,歌曲有專輯與歌手兩種屬性。我們從使用者的長程關聯顯著性、短程關聯顯著性等方面對使用者的聽歌行為進行分析,分析具體結果如下表:
說明:圖中Strong null model、Weak null mode、Temporal null model分別表示系統中所有播放之間相似度值,所有歌曲之間的相似性值,相鄰播放之間相似性值。Album表示專輯,Artist表示歌手。造成這方面的原因可能是: 與專輯相比使用者傾向於聽同一個歌手的歌曲
(5) 不同使用者聽歌行為不同
從資料中我們分析還得出,不同活躍性的使用者所聽歌曲也不同。分析中我們從歌曲新穎性、歌曲在專輯上的相似性、歌曲在歌手上的相似性三個指標上對不同活躍性的使用者所聽歌曲進行分析。
具體資訊如下圖
歌曲的三個維度分析
說明:圖中橫座標表示使用者的活躍性值,縱座標表示對應活躍性使用者所聽歌曲的新穎性值、歌曲在專輯上的相似性值、歌曲在歌手上的相似性值
造成這方面的原因可能是: 使用者可能呈分群現象
活躍性較低的使用者可能是普通使用者,這類使用者根據自己的愛好來選擇自己想聽的歌曲。活躍性較高的使用者可能是專業使用者,這類使用者根據自己的專業需要來選擇自己想聽的歌曲。
解決方案
從上面一小節的討論中,我們已經知道無線音樂端大資料中可能隱藏的幾個問題如下:
①使用者、歌曲均存在長尾效應
②歌曲覆蓋率低
③使用者每天聽歌時間呈間斷性分佈
④不同使用者對歌曲的屬性依賴性不同
⑤不同使用者聽歌行為不同
當一個公司面對以上問題時應該採用怎樣的解決方案來解決或者
改善當前情況是另一個重要的問題。尤其是上述問題①、②,如果處理不恰當,可能會影響整個公司是否能正常執行,甚至影響公司的發展。
因此,本部分從無線音樂資料出發,提出幾種適合的解決方案。
(1)使用者、歌曲均存在長尾效應,我們可以採用以下技術
採用資訊過濾技術,一種方法可以對歌曲進行分類,將不同的使用者對映到不同的歌曲類別中。另一種方法就是個性化推薦技術,系統自動的分析使用者的偏好為不同使用者過濾相應的歌曲。
(2)歌曲覆蓋率低,我們可以採用如下技術
歌曲覆蓋率低主要是因為使用者找到不到音樂,造成這個問題的原因主要有兩種:①音樂本身的資訊不充足,②音樂有資訊,但是使用者找不到這些音樂。
所以一方面我們可以給音樂打標籤,使用標籤資訊來表示歌曲的具體屬性;另一方面,我們可以採用推薦技術對歌曲進行個性化推薦。
(3)使用者每天聽歌時間呈間斷性分佈,我們可以採用如下技術
在不同的時間,我們設定不同的主題歌曲以適應不同的聽歌場景,比如夜晚放舒緩、平滑的歌曲,上午上搖滾、重金屬之類的歌曲。
當然具體的場景還需要通過進一步的資料探勘來獲得,本文只是提出一種方法,對具體技術不做過多闡述。
(4)不同使用者對歌曲的屬性依賴性不同,我們採用如下技術
通過歷史資料分析獲取使用者對歌曲屬性的依賴性,從中我們能得知使用者對哪種屬性更加依賴。當發現使用者對流派更依賴,則我們可以根據流派為其播放歌曲,當發現使用者對歌手感興趣,則我可以根據歌手為其播放歌曲。
(5)不同使用者聽歌行為不同,我們可以採用如下技術
根據使用者特徵將使用者分群,這樣可以將使用者分為多個不同的群體。針對不同的群體我們給其播放的歌曲不同,比如普通使用者可以熱歌為主進行播放,而對於專業歌手,我們則以高多樣的歌曲來為其播放。
結果驗證
為了進一步說明上述解決方案的有效性,此處我們僅採用推薦演算法來進行說明當系統採用該解決方案後,系統中出現的一些顯著變化,具體的變化如下:
l 使用者更容易找到自己喜歡的歌曲
使用者找更容易找到歌曲
該音樂網站目前採用熱歌榜(GRM)來組織歌曲,通過此種方式使用者找到其喜歡歌曲的概率是千分之一左右,當我們採用了3種推薦方法(分別是OCF、HC、MD)後,發現使用者找到自己喜歡歌曲的概率明顯增加,而且對於MD演算法,其準確度提升了10倍之多。
系統長尾的變化
使用推薦演算法前
使用推薦演算法後
長尾效應的改善
從上圖明顯的可以看出,系統的長尾效應有顯著的變化。這樣的結果應該是公司最想看的結果,不僅大大縮減了公司不必要的浪費,也為使用者提供更好的使用者體驗。
via:leiphone